您正在查看: 标签 bioinformatics 下的文章

蛋白质序列特征提取方法之——CKSAAP

Overview 在CKSAAP(Compositon of k-spaced Amino Acid Pairs)方法中,利用在蛋白质序列片断中k个间隔距离的残基对(residue pairs)在该序列中的组成比例,建立数学模型,提取出特征向量,从而达到预测泛素(Ubiquitin)的目的。 残基(residue)和泛素(Ubiquitin)信息详见维基百科:残基和泛素,这里就不赘述了。 ...阅读全文>>

生物化学基础知识简介

蛋白质序列处理过程中需要用到部分生物化学的知识,经过Chris的点拨和自己的查阅,现将这些基础知识记录下来。 阅读全文>>

DISOPRED的安装和使用

Overview DISOPRED是一个蛋白质内部非结构区域的预测软件,使用DISOPRED,我们可以很方便地得到一个蛋白质序列的非结构区域信息,能够为蛋白质特征分析提供更多的信息。 1.DISOPRED的下载 去http://bioinfadmin.cs.ucl.ac.uk/downloads/DISOPRED/这里就可以下载各个版本的DISOPRED,这里我们下载最新版本的DISOPR...阅读全文>>

蛋白质序列处理—总体步骤

蛋白质序列处理程序之前得到的数据源太乱,这些天整理并重新摆放了一下,每一步的输入文件夹后缀都有一个-in,处理程序文件夹后缀为-run,输出文件夹后缀为-out,这样条理清晰了很多,今日记录,以方便日后查阅使用。 数据处理部分共分5步: 下载并分类(set class) 多步CD-hit 正负样本1:1平衡(Dataset balance) 特征计算(feature calculation...阅读全文>>

蛋白质序列特征向量计算—数据处理第(4)步

该步骤为数据处理的第(4)步,共包含6小步。 其中前三步: 1. AAC,Amino acid composition(AminoAcidC.py) 2. SEQ,Sequence(Seq.py) 3. eft3,amino acids combination properties(involving kmp algorithm)(Eft3.py) 这前三步用到feature_calc.s...阅读全文>>

BLAST的一些坑

Overview 因为在使用PSIPRED和SCRATCH都使用到了BLAST,安装和使用的过程中遇到了一些问题,这里主要记录下BLAST安装和使用过程中遇到的一些问题,并没有详细记录完整的BLAST安装和使用说明,毕竟还没有直接使用BLAST,等用到的时候再详细记录。 BLAST,全称Basic Local Alignment Search Tool,即“基于局部比对算法的搜索工具”,...阅读全文>>

SCRATCH的安装和使用

Overview 在对氨基酸序列进行机器学习建模时,需要对氨基酸序列做特征提取,越丰富的特征通常可以带来越精准的预测结果,因此可以由原始的氨基酸序列预测出蛋白质的2级结构,水溶性等,丰富特征提取时的特征。 SCRATCH作为UCI开发的一个套件包,提供了多种不同的蛋白质预测功能,这些预测器被打包成一个集成的套件安装包SCRATCH-1D (SCRATCH Suite of One-Dime...阅读全文>>

PSIPRED的安装和使用

Overview 在对氨基酸序列进行机器学习建模时,需要对氨基酸序列做特征提取,越丰富的特征通常可以带来越精准的预测结果,因此可以由原始的氨基酸序列预测出蛋白质的2级结构,水溶性等,丰富特征提取时的特征。 PSIPRED作为一个常用的蛋白质二级结构预测工具,常见于各种蛋白质序列的预测论文中,这里主要记录一下PSIPRED的安装和使用。 其实PSIPRED官方的README文档已经很清楚了...阅读全文>>

Java程序调用Shell命令及脚本文件

Overview 最近需要用到数个Python程序处理蛋白质序列以输出特征值,而这些Python文件需要在Shell脚本中传入文本文件(该文本文件记录了某些蛋白质序列)做参数,进而依次被Shell调用。我们在Java程序中建立Shell脚本的运行时环境Runtime,这其中用到了一个类,即java.lang.Runtime,下面对该类进行探讨和记录。 1.直接运行Shell命令 java....阅读全文>>