当前位置:文档之家› 蛋白质功能预测

蛋白质功能预测

蛋白质功能预测
蛋白质功能预测

学校代码:1 0 0 6 2

学号:04063201012

本科毕业论文(设计) UNDERGRADUATE DISSERTATION

论文题目:基于PSSM矩阵构建ANN预测

蛋白质二级结构

TITLE Protein Secondary Structure

Prediction Using Artifical Neural

Network Based on PSSM

院 系 生物医学工程系

专 业 生物医学工程

年 级 2004级

学生姓名 王伟

指导教师 田 心 教授

杨惠云 助教

2008年6月

摘要

目的:生物信息学关于生物序列研究的工作主要集中在氨基酸序列的研究上,这是因为氨基酸序列决定了蛋白质的空间结构,而蛋白质空间结构决定了蛋白质生理功能的多样性。蛋白质二级结构预测对于我们了解蛋白质空间结构是至关重要的一步。方法:本文利用MATLAB软件,构建前向型BP神经网络,用位置特异性得分矩阵(position-specific scoring matrics, PSSM)方式对氨基酸编码,文章提出的二级结构预测方法,基于位置特异性打分矩阵构建人工神经网络预测蛋白质二级结构。利用位置特异性打分矩阵对CB513序列进行打分,并将其随机分为7组,对BP人工神经网络进行训练。结果:采用PSSM对蛋白质二级结构进行编码,并采用7-交叉验证,得到Q3准确率为72.51%,Q H为72.79% Q E为60.97%,Q C为78.45%,相对于二进制编码方式(基于5位编码方式)、正交编码方式、密码子编码方式,预测精确率都有显著提高。结论:远程进化信息的位置特异性打分矩阵的神经网络模型,能够更好的预测蛋白质二级结构。

关键词:蛋白质结构预测;二级结构;人工神经网络;位置特异性打分矩阵;序列分析

Abstract

Objects:The key work of Bioinformatics in researching the sequences focused on the amino acid sequences. That is because the amino acid sequences decide the structure of the protein, and the multiformity of the protein functions is depended on the structure. Protein secondary structure prediction is an important step in understanding how protein fold in three dimensions. Methods: This paper present a method that the neural network used to predict protein secondary structure based on the position specific scoring matrices generated by PSI-BLAST. Despite the simplicity and convenience of the approach used, the results are found to be superior to those produced by other methods. CB513 is get from the Protein Data Bank (PDB), and train the neural network. 7- cross validation has been used, and we get the Q3 prediction accuracy is 72%. The prediction accuracy is much better than the binary encoding, the orthogonal encoding and the codon encoding. Using position specific scoring matrices to evaluation the sequences of CB513, and grouping into7 groups in random, then training the neural network. Results: Despite the convenience of the approach used, the results are found to be superior to those produced by other methods. CB513 is got from the Protein Data Bank (PDB), and train the neural network. 7- cross validation has been used, and we get the Q3 prediction accuracy is 72% ,Q H is72.79% Q E is 60.97%,Q C is 78.45%. The prediction accuracy is much better than the binary encoding, the orthogonal encoding and the codon encoding. Conclusion: The neural network based on the PSSM, which considers of the long distance evolutional information, gets the success of the prediction of the second structure of proteins

Key words: Protein structure prediction;Secondary structure; Artifical neural network;Position specific scoring matrices;Sequence analysis

1 前言

生物信息学[1]关于生物序列研究的工作主要集中在氨基酸序列的研究上,这是因为氨基酸序列决定了蛋白质的空间结构,而蛋白质空间结构决定了蛋白质生理功能的多样性。可以说序列、结构和功能之间的关系密不可分,所以从理论上说他们之间的关系应该能够通过某种数学的方法表示出来。一旦确定了这种关系,我们就能通过氨基酸序列预测二级结构、甚至是功能。同时亦可以反过来,根据所要达到的功能,来设计我们所需要的蛋白质。

蛋白质分子折叠成天然三维结构的全部信息通常被认为蕴藏在蛋白质的一级结构中[2],低级结构对于高级结构起着决定性的作用。但是,除基于知识的蛋白质三维结构预测外,从一级结构直接预测三级结构至今仍无高精度的方法。蛋白质的二级结构又在蛋白质肽链快速折叠成具有特定功能的构象方面扮演着极其重要的角色。因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。蛋白质二级结构预测一直受到重视,是生物信息学研究的重要组成部分。

由于大量的基因序列计划产生的数目庞大的序列产生,利用蛋白质氨基酸序列预测蛋白质结构的研究越来越引人关注。目前,利用比较模型对未知蛋白质结构预测的准确率最高。但是,这种方法需要找到一个与目标蛋白质有高度序列相似性的模板蛋白质,才能够进行预测。由于,大部分的时候都很难找到与目标蛋白质序列相似的模板蛋白质,折叠区识别方法为我们提供了另一种对于蛋白质结构预测的选择性。除了基于相似性的预测方法外,还有从头算法,就是不需要任何参考蛋白质,直接从氨基酸序列预测蛋白质结构。尽管有很多基于从头开始算法的蛋白质三级结构预测方法,但是应用最多从头算法的还是蛋白质二级结构预测。

蛋白质二级结构预测开始于二十世纪六十年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都小于70%,而对β折叠预测的准确率仅为28~48%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片

段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象只用局部信息的二级结构预测方法,其准确率不会有太大的提高。

二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。

目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(α,β,none)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsec。PHDsec 利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。

近来的蛋白质二级结构预测方法基于两种理念,一是简单的立体化学标准,二是统计学原理。GOR方法由于可以通过软件来实现,使其应用起来具有很高的简便性,因此被广泛采用。然而,随着要分析的序列的增多,往往并不是简单的分析一条序列,而是一个序列家族所有相关的序列。这就需要构建一种多序列分析方法,这种方法要考虑到序列的进化信息以及插入和删除等操作。目前,应用上述这种方法最成功的可能就是Niermann等人利用多序列信息进行蛋白质二级结构预测来研究色氨酸合成酶α亚基,该方法由Zvelebil等人发表。然而,真正意义上应用多序列信息,并使其推广的是在1991

年由Benner和Gerloff完成的。他们成功的应用蛋白质二级结构预测方法研究cAMP激酶。这种方法最主要的信息来源是保守的蛋白质功能序列以及深藏在蛋白质核心内的信息。尽管提到了上述优秀的方法,但是很明显通过总结上述方法我们可以得到一种更为自动化的方法,用于处理数量庞大的序列。1993年,Rost和Sander 提出了PHD方法,该方法应用一套由反向传播的前馈神经网络Benner和Gerloff的“专家方法”。经验证,该方法明显优于之前的。

本篇文章中所采用的研究方法也利用了人工神经网络,利用基于远程进化信息的编码方式作为网络的输入,所获得的预测精确率是比较可靠的。

2 研究对象和方法

2.1蛋白质二级结构预测

蛋白质的二级结构是指组成蛋白质的多肽链骨架的有规则的排列,而不涉及侧链的类型和构象。蛋白质二级结构主要有:α-螺旋(Helix)、β-折叠(Sheet)和无规则卷曲(Coiled-coil)等。其中α-螺旋和β-折叠被称为规则二级结构。α-螺旋是蛋白质结构中最普遍出现的螺旋,α-螺旋在序列上具有连续性,即α-螺旋中残基的亲疏水性每隔3-4个残基就有一个周期性的变化。β-折叠由多肽链上不连续的几个区域构成,其基本单元是β-折叠片,中间的残基往往是高度疏水的,亲水的残基集中在两端。无规则卷曲主要包括转角、连结和紧密环,它们与规则的二级结构一样稳定。这些结构特征为二级结构预测提供了基础。

2.1.1基于进化信息和氨基酸构成的预测方法

大多数后继的使用神经网络的二级结构预测工作都以上述的结构为基础,有时也会与诸如Chou-Fasman规则[3]之类的方法相结合。基于单一序列的三类别二级结构预测的正确率低于65%-68%。使用进化信息可使预测正确率进一步提高到大于72%,相应的相关系数为Cα=0.64,Cβ=0.53。使用进化信息进行预测有四个步骤:第一步,扫描已知序列数据库,使用比对方法寻找类似序列族;第二步,利用与序列长度有关的阀值对序列进行筛选,寻找有显著相似性的序列个体;第三步,基于所有可能的三维同源性,完成一系列氨基酸间的替换;第四步,将完成氨基酸替换后得到的新序列谱用于预测。

PHD方法是第一种使用250条独特的蛋白质链进行交叉验证并证明其二级结构三种类别预测正确率大于72%的方法。该方法是将替换后的新序列谱和源自多重序列比对的附加信息以及蛋白质的氨基酸组成整合在一起,作为神经网络的输入向量。这样输入向量不再基于传统的单一序列的正交编码,而是基于对于待预测序列高度同源的序列族进行多重序列比对所获得的序列谱。PHD方法的整个二级结构预测系统包含3层:2个神经网络层和1个独立训练的神经网络结果取平均的计算层。该数据库给出了所有可能的同源性多重序列比对和该蛋白质家族的序列特征。为了克服Qian和Sejnowsk[4]的网络结

构中存在的过拟合问题,PHD方法采用了两种策略:第一种策略是提前结束;第二种策略是将用不同输入和不同学习算法独立训练的不同网络做整体平均。但最具创新性的方面在于多重序列比对的应用,因为多重序列比对比单一序列包含了更多的二级结构信息。

2.1.2 使用网络模型集和自适应编码预测二级结构

Riss和Kro研究了二级结构预测的另外一种独特的神经网络方法[5],他们通过精心设计神经网络结构避免了过拟合问题。该方法由四部分组成:第一部分,使用权重共享技术,对氨基酸进行自适应编码,即通过神经网络寻找一种输入字符的优化、压缩编码表示形式,可大大减少输入层的维数。第二部分,为三类别中的每一类分别设计了不同的网络。在α螺旋的识别中,通过在第一隐层和第二隐层之间建立三残基周期性连接,将α螺旋的周期特性加以利用;第二隐层与输出层建立全连接关系。在β折叠和无规卷曲的识别中,第一隐层与一般为5-10个节点大小的第二隐层之间以及第二隐层与输出层之间建立全连接关系。第三部分,使用网络模型集和过滤技术提高预测的正确率。第四部分,将多重序列比对的方法和加权方案相结合。这种结构可使Q3达到71.3%,相应的相关系数为:Cα =0.59,Cβ= 0.50,C c=5.41,与PHD方法相当。

2.1.3 基于位置特异性打分矩阵的预测方法

PHD方法的最大贡献在于使用了序列谱,而序列谱的质量显然依赖于寻找同源序列所使用的比对算法。目前一个很好的比对算法是PSI-BLAST方法[6]。它采用了迭代搜索策略:先使用一个蛋白质序列扫描数据库(如SWISS-PROT数据库)找到一组序列,这组序列又产生一组新的搜索序列谱,然后再用这组搜索序列谱寻找新的序列。这种“序列漫游”(sequence walking)策略通常能获得更多的序列家族成员。Jones的PSI-PRED 方法[7]中,就采用了PSI-BLAST中的迭代策略生成序列谱从而改良网络输入。这些序列普基于位置特异性打分矩阵,大大提高了网络的预测性能。Jones使用Blosum62替代矩阵。

使用PSI-PRED方法所得到的结果替代PHD方法中的HSSP序列谱,可将三类别的预测正确率提高到76.5%。在1998年的CASP3[4]竞赛中,PSI-PRED方法在二级结构预测上被公认为是最好的。

2.2 人工神经网络模型

ANN理论是在现代神经科学研究成果的基础上通过简化、抽象和模拟而提炼出来的,它反映了人脑功能的若干特性,但并非神经神经系统的确切表示。也就是说,ANN 模型是一种抽象的数学模型。出于不同的研究目的和角度,它可用做大脑结构模型、认识模型、计算机信息处理方式和算法结构。迄今为止对于ANN的研究大体上可分为三个大的方向[8]:

(1)探求人脑神经系统的生物结构和机制,这实际上是ANN理论的初衷;

(2)用各种电子元器件形成特殊功能网络,这主要是新一代计算机制造利于所关

注的问题;

(3)将ANN理论作为一种解决某些问题的方法和手段,这类问题在利用传统方法处理时,常存在着这样或那样的困难。这实际上是ANN理论在其他领域

中的应用问题。本文所要讨论的问题就属于这个范畴。

目前,在生物信息学研究中所应用的神经网络最多的是多层前馈网络模型,这种模型使用最广泛的算法是BP算法[9-12],即反向传播算法。它属于有导师学习的算法。这种模型也叫做BP神经网络。它也是在其他领域里使用得最广泛的ANN模型之一。我们以三层网络结构为例,说明模型的基本原理:

三层前馈网络模型(图2-1)由输入层、隐含层和输出层组成。BP学习算法由正向传播和反向传播组成。正向传播是输入信号从输入层经过隐含层传向输出层,如果输出层得到了期望的输出,则结束;否则转至反向传播。反向传播就是将误差信号按原连接通路反向计算,由梯度下降法调整各层神经元的权值和阈值,使误差信号减至最小。

图2-1 三层前馈网络

最新的研究对主要五种神经网络进行了比较,分别是:误差反传前向网络(BP),径向基函数网络(RBF),广义回归神经网络(GRNN),串并联叠层网络(CF),Elman 网络(EI M)。其中BP、GRNN、RBF和CF属于前馈网络,ELM属于后馈网络。利用这五种神经网络对蛋白质二级结构进行预测,并对各神经网络预测准确率进行了比较。通过比较可知,在给定的条件下,以GRNN预测的结果最佳,达到了85.7%。该预测精度已经能够很好的满足预测要求[13]。

2.3 BLAST

FastA和BLAST程序是目前最常用的基于局部相似性的数据库搜索程序,它们都基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行,而不必依赖计算机硬件系统而解决运行速度问

题。

BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST程序之所以使用广泛,主要因为其运行速度比FastA等其它数据库搜索程序快,而改进后的BLAST程序允许空位的插入。我们可以访问NCBI的网站在线进行BLAST和FastA的搜索

2.3.1 BLAST搜索

BLAST 算法本身很简单(表2-1),它的基本要点是序列片段对(segment pair)的概念。所谓序列片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。BLAST算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,然后对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,称高分值片段对(high-scoring pairs, HSPs)。这就是无空位的BLAST比对算法的基础,也是BLAST输出结果的特征。

BLAST 软件包实际上是综合在一起的一组程序,不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将检测序列翻译成蛋白质或将数据库翻译成蛋白质后再进行搜索,以提高搜索结果的灵敏度。位置特异性叠代BLAST (Position-Specific Iterated BLAST,简称PSI-BLAST)则是对蛋白质序列数据库进行搜索的改进,其主要思想是通过多次叠代找出最佳结果。具体做法是利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。

表2-1 BLAST种类

程序名检测序列数据库类型方法

Blastp 蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库

Blastn 核酸核酸用检测序列核酸序列数据库

Blastx 核酸蛋白质间核算序列按6条链翻译成蛋白质后搜索蛋白质序列数据

Tblastn 蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成

的蛋白质序列数据库

Tblastx 核酸核酸将核酸序列按6条链翻译成蛋白质后搜索由核酸序列数据

库按6条链翻译成的蛋白质序列数据库

BLAST 程序是免费软件,可以从美国国家生物技术信息中心NCBI等文件下载服务器上获得,安装在本地计算机上,包括UNIX系统和WINDOWS系统的各种版本。

但必须有BLAST格式的数据库,可以从NCBI下载,也可以利用该系统提供的格式转

换工具由其它格式的核酸或蛋白质序列数据库经转换后得到。对核酸序列数据库而言,不论用哪种方式,都需要很大的磁盘空间;而程序运行时,需要有较大的内存和较快的运算速度,因此必须使用高性能的服务器。对一般用户来说,目前常用的办法是通过NCBI、EBI等国际著名生物信息中心的BLAST服务器进行搜索。北京大学生物信息中心也提供了BLAST数据库搜索服务。需要说明的是,各生物信息中心BLAST用户界面有所不同,所提供的数据库也可能不完全相同,使用前最好先进行适当的选择。欧洲生物信息研究所BLAST 服务器的用户界面比较简洁,提供的数据库和参数很多,用户可以根据不同要求,选择不同的数据库和各种参数。一般情况下,可以先按照系统给定的缺省参数进行初步搜索,对结果进行分析后再适当调整参数,如改变相似性矩阵、增加或减少空位罚分值、调节检测序列滑动窗口大小等。对于核酸序列数据库,一般选择重复序列屏蔽功能,而对于蛋白质序列,特别是球蛋白,通常不必选择重复序列屏蔽功能。

高级BLAST的参数设置:

1. 期望值设定

在蛋白质序列搜索中,期望值的默认值是10。像核酸一样,期望值就是指搜索结果中的击中序列是偶然击中的可能性,因此值越大时偶然击中的可能性越大,击中序列与提交序列同源的可能性越小,这是序列搜索显著性分析的指标之一。E值大于这个默认值的搜索序列是不列入结果报告中的。低E值的报告严谨但匹配的序列少,所以要选择合适的E值,一般可以先选择一个中等值,然后逐步变化,直到满意为止。

2. 字长的设定

默认值是3。这与核酸的默认值不一样,主要是因为蛋白质序列的组成单体多样化(20个氨基酸),因此序列的复杂度要比核酸高,单个位置重复出现的几率小(1/20而

核苷酸是1/4),因此字长要小。

2.3.2 允许空位的 BLAST

如上所述,最初的BLAST程序只能用于无空位的比对。经验表明比对结果通常会出现一些无空位但不连续的区域,不难想象,有些高分值片段对可以通过一些相似性较低且有空位的片段连接起来,组成了一些更长的或许更具实际生物学意义的比对。基于上述思路,BLAST算法经过改进允许空位插入。为缩短对数据库初始搜索的时间,新的算法只找出一个最好的高分值片段,并以此为基础运用动态规划方法将这一片段向两端延伸,最终产生的比对结果可能有空位插入。由于免去了查找所有高分值片段对的步骤,新的算法比原算法快3倍。对BLAST算法的进一步扩充,可以考虑双序列比对和多序列比对的有效结合。

2.3.3 位点特异性BLAST叠代搜索

位点特异性BLAST叠代搜索,是一种将双序列比对和多序列比对结合在一起的数

据库搜索方法。尽管以下事实已经基本得到认同:基于序列模式的数据库搜索灵敏度较高、特异性较好,因而可以发现一些距离较远但却具有生物学意义的相似序列;它的不足之处也不能予以忽视。除了需要大量的计算资源这一缺点外,对于搜索结果的分析解释常常相当困难。这些制约因素限制了它的实际使用范围。PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次叠代不断改进这一序列谱以提高搜索的灵敏度。

和其它叠代算法一样,PSI-BLAST方法既有不少长处,也有它的弊病。例如,如果在比对前不把胶原蛋白、同源多聚体等低复杂度的重复序列屏蔽掉,自动叠代搜索过程会因为这些重复序列的干扰而失败。假如第一轮的搜索结果出现一个错误序列,那么最终搜索结果中将会出现许多不期望的无关序列。因此,为了尽量去除大量的错误匹配,仔细分析搜索结果给出的同源关系变得非常重要。

2.4 编码方式

2.4.1 正交编码

最传统的也是常用的编码即正交编码,又称局部编码(orthogonal encoding, also local encoding),这种编码采用20 位二进制数字来表示一个氨基酸。依次让一位为1, 其余位为0 即可表示20种天然氨基酸。例如可以这样为20 种氨基酸依次编码,氨基酸A (10000000000000000000);氨基酸C(01000000000000000000);氨基酸 D ( 00100000000000000000 ) ;……;氨基酸Y (00000000000000000001)。显然,这20 个编码向量是正交的,于是称为“正交编码[14-17]”。表1 给出了一个编码例子,其中被编码的序列为:FNARMYL。

用连续的2n+1个氨基酸作为输入,编码序列是围绕中心残基左右各n个,共2n+1个残基。这里的2n+1,即每次输入的连续氨基酸数目,为窗口大小。由于序列两端会出现窗口“不满”的情形,故可以用20+1位二进制数表示一个氨基酸,前20位用于表示20 种氨基酸,最后一位为结束符,用1表示。“空窗口”用前20 位为0,最后一位为1。这样,每个残基由20+1个神经元编码[18]。为了跟传统正交编码区别,我们分别将传统的和改进的编码分别称之为20位编码和21位编码。

表2-2 正交编码表例

直接用- 1到1之间的20 位数字(- 1. 0, - 0. 9,. . . , 0. 9, 1. 0) 来表示20 种氨基酸输出为蛋白质二级结构的编码以(01)、(10)、(00)分别表示螺旋、折叠无规则卷曲等。对于网络输出编码各种方法大致相同,中间第n+ l位氨基酸对应的二级结构代码(H, E,L )为网络的输出,输出层有三个节点(node) ,对应三种二级结构,分别表示为:H (100),E (010) ,L (001)。输入层中编码一个残基的神经元只有一个处于激发状态,即编码该残基的神经元输出为1,其他输出为0。类似地,代表中心残基二级结构状态的输出单元的期望值为1,其他的为0。

2.4.2 五位编码

5位编码(five-byte encoding) 也属纯数学编码。由于构成蛋白质的氨基酸总共有20种,所以用5位二进制数就可以代表它们。把氨基酸和1~20之间的数对应如下:A – 1,B – 2,……,Y- 20。这时,氨基酸A 的编码是(00001),氨基酸B 的编码是:(00010),氨基酸Y的编码是:(10010)[19]。

2.4.3 基于密码子的编码方式

由中心法则,基因序列肯定包含着相应的蛋白质结构信息。Lamont 曾采用是密码子 (Codon) 和扩展型密码子进行编码。所谓的密码子编码,就是先将4 碱基A、C、G、T 用四位二进制数编码:A(1000),C(0100),G(0010) ,T (0001) ,由于密码子的简并性,所以必须考虑出现AorG (这里表示A 或者G下同) ,A orT 等情况,解决的方法是给它们一个新的编码,将两个(或三个, 四个)碱基编码对应位置上的数字相加即可,如AorG(1010),AorT(1001),……,AorCorGorT(1111)。然后按密码子编码的氨基酸对输入进行编码,如氨基酸A 可以有4 种碱基组合形式,即GCA、GCC、GCG 和GCT ,组合起来就是GC (AorCorGorT ),于是,氨基酸A 的编码方式是(0010 0100 1111),以此类推,便可得到其他氨基酸的编码[20]。

扩展型密码子将4个基本碱基和6 种简并情况(AorG,AorT,CorG, CorT,AorCorT,AorCorGorT ) 等同起来进行编码,这样,类似于20 位正交编码,就可以用10 位二进制数来编码碱基,再将这“10种碱基”按密码子组合起来,就可以编码所有的氨基酸,例如氨基酸 A 密码子为GC(AorCorGorT ),于是其编码就可以表示为(0001000000 0010000000 0000000100),等等。

2.4.4 PSSM

图2-2 PSSM

图2-3 每一位置显示氨基酸出现的频率

我们这里所使用的编码方式就是基于位置特异性的编码(图2-2,2-3),它能够统计出每一位置上各种氨基酸出现的概率,所以更为具有全局性意义。

2.5 方法

我们基于位置特异性打分矩阵的人工神经网络预测蛋白质二级结构的基本思路是:首先从PDB数据库中搜索得到CB513序列,将其转换为PSSM矩阵形式,再将其转换成用一个滑动窗口(sliding window)在蛋白质的氨基酸序列上取奇数相临的残基并编码作为网络的输入,窗口大小(window size)w = 13~21 (图2-4中w = 7)。通过网络权值的调整, 网络输出为三个目标(即所谓的三态):H 为螺旋,E 为折叠,L 为不规则结构。预测的结果是窗口所取样本中心残基所在位置的二级结构。例如输出状态(H, E, L ) 为(0. 6, 0. 3, 0. 2),则根据胜者通吃(winner-takes-all) 原则,可以判断输入样本的中心残基R 位于螺旋结构(H)之上。这样, 通过窗口每次移动一个残基的位置,可以逐步预测出整条蛋

白质序列的二级结构。对于预测结果的评价,通常采用国际上通用的指标三态准确率和

整体准确率。其中以整体准确率Q 3最为常用。

总预测精度为:

Q3=(P H+P E+P C)/N×100% (3-1)

P H正确预测α螺旋的残基数

P E正确预测β折叠的残基数

P C正确预测无规则卷曲的残基数

N为蛋白质所有残基的数量

三态准确率为:Q H=P H/N H×100% 另外两种的预测准确率相同

N H为全部预测为α螺旋的残基数

图2-4 蛋白质二级结构预测的人工神经网络模型

2.5.1 数据集

该文章所采用的CB513序列来自于PDB数据库(表2-3),从中剔除含有氨基酸X、B的序列,以及长度小于30的氨基酸序列,最后剩下492条序列。

表2-3 用于模型训练的513训练集

1aazb-1 1cei-1 1delb-2 1fdx 1gym-1 1kuh-1 1nox-1 1qbb-3 1tabi-1 1wfbb-1 1acx 1celb-1 1dfji-1 1find-1 1han-1 1158 1nozb-2-1qbb-4 1taq-2 1whi-1 1add-1 1cem-1 1dfnb-1 1find-2 1han-2 1lap 1oacb-1 1qrdb-1 1tcba-1 1wsya

1adeb-2 1ceo-2 1dih-2 1fjmb-2 1hcgb-1 1latb-1 1oacb-2 1r092 1tcra-2- 1wsyb

1ahb-2 1cewi-1 1dik-1 1fkf 1hcra-1 1lba-1 1oacb-3 1rbp 1tfr-1 1xvab-1 1alkb-1 1cfb-1 1dik-2 1fnd 1hip 1lbu-1 1oacb-4 1rec-1 1thtb-1 1yptb-1 1amg-2 1cfr-1 1dik-3 1fua-1 1hiws-1 1lbu-2 1onrb-1 1rec-2 1thx-1 1yrna-2 1amp-1 1cgu-2 1dik-4 1fuqb-1 1hjrd-1 1lehb-3 1otgc-1 1regy-1 1tie-1 1znbb-1 1aorb-1 1cgu-3 1din-1 1fuqb-2 1hmpb-11lib- 1ovb-1 1reqc-1 1tif-1 1zymb-2

1aorb-3 1cgu-4 1dkza-1 1fuqb-3 1hmy-2 1lis-1 1ovoa 1reqc-2 1tig-1 2aaib-2

1aozb-1 1chbe-1 1dlc-1 1fxia 1hnf-1 1lki-1 1oxy-3 1rhd 1tiic-1 2aat

1aozb-2 1chd-1 1dlc-3 1gal-2 1hnf-2 1lmb3 1oyc-1 1rhgc-1 1tml-1 2abk-2

1aozb-3 1chkb-2 1dnpb-1 1gal-3 1horb-1 1lpba-1 1paz 1rie-1 1tndb-2 2admb-1

1asw-1 1chmb-1 1dnpb-2 1gcb-2 1hplb-1 1lpe-1 1pbp-2 1ris-1 1tnfa 2admb-2

1atpi-1 1cksc-1 1dpgb-1 1gcmc-1 1hplb-2 1mai-1 1pbwb-11rlds-1 1tplb-3 2afnc-1

1avhb-3 1clc-1 1dpgb-2 1gd1o 1hslb-2 1masb-1 1pda-2 1rlr-1 1trb-2 2afnc-2

1avhb-4 1clc-2 1dsbb-2 1gdj 1htrp-1 1mcti-1 1pda-3 1rlr-2 1trh-1 2ak3a

1ayab-1 1clc-3 1dts-1 1gep-2 1hup-1 1mdaj-1 1pdnc-2 1rpo-1 1trkb-1 2alp

1azu 1cnsb-1 1dupa-1 1gep-3 1hvq-1 1mdam-11pdo-1 1rsy-1 1trkb-3 2asr-1

1bam-1 1coi-1 1dynb-1 1gflb-1 1hxn-1 1mdta-1 1pga-1 1rvvz-1 1tsp-1 2bat-1

1bbpa 1colb-1 1eca 1ghsb-1 1hyp-1 1mdta-2 1pht-1 1s01 1tssb-2 2bltb-2

1eceb-1 1gky-2 1ignb-2 1mdta-3 1pii-2 1scud-1 1tul-1 2bopa-1 1bcx-1 1comc-1

1bdo-1 1cpcl-1 1ecl-1 1gln-2 1il8a 1mjc-1 1pkyc-2 1scue-2 1tupc-1 2cab

1bds 1cpn-1 1ecl-4 1gln-3 1ilk-1 1mla-2 1pkyc-3 1scue-3 1ubdc-1 2ccya

1bet-1 1cqa-1 1ecpf-1 1gln-4 1ilk-2 1mmoh-11pmi-2 1seib-1 1ubdc-2 2cmd-2

1bfg-1 1crn 1edd-1 1gmpb-1 1inp-1 1mns-2 1pnmb-21seib-2 1ubq 2cpo-1 1bmv1 1csei 1edmc-1 1gnd-2 1inp-2 1mof-1 1pnt-1 1sesa-2 1udh-1 2cyp

1bmv2 1csmb-1 1edn-1 1gog-1 1irk-1 1mrrb-1 1poc-1 1sfe-1 1umub-1 2dkb-2

1bncb-1 1ctf-1 1eft-3 1gog-2 1irk-2 1mrt 1powb-11sfe-2 1vcab-1 2dln-1

1bncb-3 1cthb-1 1efud-2 1gog-3 1isab-1 1mspb-1 1powb-21sftb-2 1vcab-2- 2dln-3

1bncb-4 1ctm-2 1epbb-1 1gp1a 1isab-2 1nal4-1 1powb-31sh1 1vcc-1 2dnja-1

1bovb-1 1ctn-1 1ese-1 1gp2a-1 1isub-1 1nar-1 1powb-41smnb-1 1vhh-1 2ebn-1

1bpha-1 1ctn-3 1esl-1 1gp2g-2 1jud-1 1nbac-1 1ppi-2 1smpi-1 1vhrb-2 2end-1

1brse-1 1ctu-1 1etu 1gpc-1 1kinb-1 1ncg-1 1ppt 1spbp-1 1VID-1 2erl-1

1bsdb-1 1ctu-2 1euu-2 1gpmd-4 1knb-1 1ndh-1 1ptr-1 1sra-1 1VJS-3 2fox

1cbg-1 1cxsa-4 1fbab-1 1gpmd-5 1kptb-1 1ndh-2 1ptx-1 1srja-1 1vmob-1 2fxb

1cbh 1cyx-1 1fbl-1 1grj-1 1krca-1 1nfp-1 1pyp 1stfi-1 1vnc-1 2gbp

2gcr

1cc5 1daab-1 1fc2c 1grj-2 1krcb-1 1nga-2 1pyta-1 1stme-1 1vokb-1

1cdlg-1 1daab-2 1fdlh 1gtmc-2 1kte-1 1nlkl-1 1qbb-1 1svb-1 1vpt-1 2glsa

1cdta 1dar-3 1fdt-1 1gtqb-1 1ktq-1 1nol-1 1qbb-2 1svb-2 1wapv-1 2gn5

2mhu 2phy-1

2stv 3bcl-1 3hmgb 3rnt 4sgbi 6dfr 9pap 2gsq-2

2hft-1 2mltb-1 2polb-1 2tgi-1 3blm 3icb 3tima 4ts1a 6hir 9wgaa

2hft-2 2mtac-1 2reb-1 2tgpi 3cd4 3inkd-1 4bp2 4xiaa 6rlxc-1 1541-1

2hhmb-1 2nadb-2 2reb-2 2tmdb-3 3chy-1 3mddb-14cpai 5cytr 6rlxd-1 256ba

2hhmb-2 2npx-3 2rsla-1 2tmvp 3cla 3mddb-24fisb-1 5er2e 6tmne 821p-1

2hipb-1 2olba-2 2rspa 2trt-1 3cln 3mddb-34gr1 5ldh 7cata

2hmza 2olba-3 2scpb-1 2tsca 3cox-1 3pgk-2 4pfk 51yz 7icd

2hpr-1 2or1l 2sil-1 2utga 3cox-2 3pgm 4rhv1 5sici-1 7rsa

3pmgb-14rhv3 6acn 8adh

2ilb 2paba 2sns 2wrpr 3ecab-1

2ltna 2pgd-1 2sodb 2yhx-3 3ecab-2 3pmgb-24rhv4 6cpa 9apia

2ltnb 2pgd-2 2spt-1 3ait 3gapa 3pmgb-34rxn 6cpp 9apib

2mev4 2phh 2spt-2 3b5c 3hmga 3pmgb-44sdha 6cts 9insb

在这492条序列中,总共有氨基酸83707个,其中HEC比例如表2-4。

表2-4 HEC比例

H E C

35785 数量 19022

比例(%) 34.53 22.72 42.75

2.5.2 序列文件的产生

以下详细介绍PSSM矩阵产生的过程:

1)从NCBI网站下载Blast本地运行程序。解压安装到一指定目录(如E:\blast)。

2)在Windows系统文件夹下建立文件ncbi.ini,写入

[NCBI]

Data=E:\blast\data

3)从NCBI网站下载格式化后的nr数据库,拷贝到E:\blast\data目录下。

nr数据库(ftp://https://www.doczj.com/doc/d410333501.html,/blast/db),包含所有的已知数据库:Genbank,SwissProt,PIR,PDB,PRF以及NCBI RefSeq数据库;

4)运行blastpgp程序,查询数据集中各条蛋白序列相似的蛋白序列,产生PSSM profiles,

实际执行命令为:

blastpgp -d nr -i [要查询的序列文件] -j 3 -h 0.001 -Q [输出的PSSM文件]

blastpgp为迭代检索命令,其本质上进行的是blastp的检索。根据PSIPRED参数设置的

建议,我们采用以下参数值:其中在每轮检索后构建新的打分矩阵时所选择的序列的期

望值E的阈值为0.001(-h 0.001),最大迭代检索次数为3次 (-j 3),输出一个可读的

文本格式的PSI-BLAST的打分矩阵(-Q)。之后,将编译好的profile通过函数归一化至[0,1]范围内。归一化后的PSSM则可作为神经网络的输入。PSSM矩阵包括M×20个元

素,M是靶序列的残基个数。每个元素代表特定位置的特定残基被取代的可能性。

而对应的蛋白质二级结构,从PDB数据库中提取的原始结构分为G、H、I、B、E、

S、T和C等8类[21]。我们这里将其按照DSSP分类法分为螺旋H、折叠E、卷曲C,其中:(1)G、H、I属于helices,记作螺旋H;

(2)B、E属于sheets,记作折叠E;

(3)S、T、C属于coils,记作无规则卷曲C。

2.5.3 人工神经网络的训练

该文章利用处理好的PSSM矩阵作为输入,将蛋白质二级结构三态用H[1 0 0]、E[0

1 0]、C[0 0 1]表示。考虑到前后氨基酸的影响,滑动窗口长度设为15(2×7+1),这样

就能将前后7个氨基酸的影响考虑进去。我们采用的是BP网络,循环次数设为250(经

过实验证明250次以后的循环对于网络的改进并不明显,且需要较长的运算时间),隐含层设为11,输出层为3,其他参数均选用默认值。

已知的492条序列,我们将其随机分为7组,每次采用其中的6组作为训练集,剩下的一组作为测试集,经过7次循环,以保证其最终得到的预测精度准确有效。

图2-5 实验流程图

每次测试我们得到的结构并不是像[1 0 0]这样标准的数据结构,我们通过胜者通吃原则,将三态分值最高的那种状态确定为这个残基的状态。通过不断循环,得到整条序列的预测二级结构(图2-5)。

3实验结果

3.1 基于PSSM矩阵的预测结果

7组数据分别训练、测试网络所得的预测精度(见表3-1)。

表3-1 总预测精确率及三态预测精度

Q3(%)Q H(%)Q E(%)Q C(%)

T1_test 74.21 74.58 63.46 79.23

T2_test 71.71 73.98 59.35 77.26

T3_test 71.33 70.08 61.17 77.95

T4_test 71.45 71.53 60.09 77.33

T5_test 73.07 71.20 60.85 80.08

T6_test 72.73 72.28 62.28 78.46

T7_test 73.07 75.88 59.61 78.85

平均值72.51 72.79 60.97 78.45

图3-1 预测精确率柱形图

从图3-1中可看出,对于每个训练集的各个预测指标都很接近。

3.2 五位二进制编码及正交编码方法的预测结果

为了对比基于PSSM矩阵方法的预测精度,这里采用了五位二进制编码及正交编码方法对相同的数据集进行了预测。

采用5位二进制编码技术,确定循环次数为250,训练函数为traingdx,改变窗口数和隐层数后,预测准确率结果如表3-2。

表3-2 五位二进制编码

窗口数隐层数Q3Q H Q E Q C

11 13 15 17 15

30

15

30

15

30

15

30

0.55075

0.54928

0.56474

0.56962

0.54701

0.55514

0.54714

0.54196

0.69622

0.64370

0.66387

0.66387

0.71807

0.62185

0.66555

0.65714

0.25116

0.22171

0.24574

0.24574

0.21860

0.23566

0.17597

0.19457

0.56699

0.62914

0.63559

0.66949

0.55367

0.65738

0.62672

0.66219

其中,最高的Q3比 PSSM要低15个百分点,而Q E更是低的惊人。

表3-3 20位正交编码

窗口数Q3Q H Q E Q C

11 13 15 17 0.58198

0.57986

0.57710

0.57840

0.72731

0.66765

0.71387

0.74832

0.33178

0.27830

0.23643

0.21938

0.57264

0.65254

0.62308

0.60210

Q3的值还是较为满意,Q E但是还是较低。

3.3 基于密码子的编码方式的预测结果

预测结果如下:

表3-4 密码子基本型编码方式

窗口大小隐含层单元数训练步数Q3Q H Q E Q C

窗口13 15 250 0.42971 0.84386 0.00856 0.25051 窗口15 15 250 0.48446 0.67277 0.14419 0.48121 窗口17 15 250 0.46343 0.80412 0.00700 0.37308

该方法的Q3比PSSM低了25%左右,Q E接近于1%。

表3-5 密码子扩展型编码方式

窗口数Q3Q H Q E Q C

13 0.5722 0.7034 0.2977 0.5892

15 0.4938 0.7101 0.1713 0.454

17 0.5145 0.7769 0.1512 0.4516

较上面方法有了一定提高,但是还是不能满足要求。

4讨论

4.1 与五位二进制编码及正交编码方法进行对比

从表3-2、3-3中可以看出无论是5位二进制编码,还是20位正交编码方法对于蛋

白质二级结构的精确率,只有对α螺旋的预测精确率还可以接受。其中Q3为58.19%(多

种预测窗口中最高值)比我们采用的方法(72.51%)低了很多。

由于正交编码技术利用纯数学的计算方法,方法极为简便,也是最传统的编码技术,

对于蛋白质二级结构预测的发展起了很重要的作用。但是,正交编码不会引入任何单体

间代数关系,所以会忽略了连续氨基酸序列前后残基之间的作用,造成了预测精确率普

遍较低。

4.2 与基于密码子的编码方式对比

不难看出,基于密码子的编码方式对于蛋白质预测的结果非常不理想,特别是其对

于β折叠的预测最高不到30%,与我们采用的基于位置特异性打分矩阵的神经网络方法

有着天壤之别。

4.3 基于位置特异性打分矩阵的神经网络方法的性能

从图3-1中显示出来的结果十分令人满意,但是不能否认该方法中存在一些可能存

在的问题。例如所得二级结构数据是由实验证实的,但是实验中难免存在一些误差,会

对数据产生影响。我们所采用的人工神经网络训练集与测试集来自相同的数据库,尽管

采用了极为严格交叉验证方法,很难保证数据集同源性的影响。

由于这里所用来训练、测试的电脑配置并不是很理想,所以所采用的训练方法难免

会受到一定的制约,对于产生的网络模型的性能会产生一定的影响。而且,我很难利用

更多的数据对网络进行训练,以获得更加优越的网络结构,希望有机会能够利用更高配

置的计算机对更加庞大的数据集进行处理,从而对该预测方法的性能做出更加公正的判

断。

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.doczj.com/doc/d410333501.html, 我国的北京大学生物信息中心(https://www.doczj.com/doc/d410333501.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.doczj.com/doc/d410333501.html,/sprot 或 https://www.doczj.com/doc/d410333501.html,/expasy_urls.html TrEMBL https://www.doczj.com/doc/d410333501.html,/sprot PIR https://www.doczj.com/doc/d410333501.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.doczj.com/doc/d410333501.html, 二、蛋白质结构数据库 1、PDB数据库:

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/d410333501.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.doczj.com/doc/d410333501.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.doczj.com/doc/d410333501.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.doczj.com/doc/d410333501.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.doczj.com/doc/d410333501.html, 我国的北京大学生物信息中心(www.cbi.

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构预测

实习 5 :蛋白质结构预测 学号20090***** 姓名****** 专业年级生命生技**** 实验时间2012.6.21 提交报告时间2012.6.21 实验目的: 1.学会使用GOR和HNN方法预测蛋白质二级结构 2.学会使用SWISS-MODEL进行蛋白质高级结构预测 实验内容: 1.分别用GOR和HNN方法预测蛋白质序列的二级结构,并对比异同性。 2.利用SWISS-MODEL进行蛋白质的三级结构预测,并对预测结果进行解释。 作业: 1. 搜索一条你感兴趣的蛋白质序列,分别用GOR和HNN进行二级结构预测,解释预测结果,分析两个方法结果有何异同。 答:所选用蛋白质序列为>>gi|390408302|gb|AFL70986.1| gag protein, partial [Human immunodeficiency virus] (1)GOR预测结果: 图1 图1是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到9位个氨基酸为无规卷曲,10到33位氨基酸为α螺旋,34到37位为β折叠,38到45位为无规卷曲,46到49位为α螺旋,50到53位为无规卷曲,54到65为α螺旋,66到72位为无规卷曲,73到95位为α螺旋,96到101位为无规卷曲,102到108为β折叠,109到115位为无规卷曲,117位为β折叠。 图2 图2为各种结构在序列中所占的比例,其中Alpha helix占53.85%,Extended strand占11.11%,Random coil占35.04%,无他二级结构。

图3 图3为各个氨基酸在序列中的状态以及二级结构在全序列中二级结构分布情况。 (2)HNN预测: 图4 图4是每个氨基酸在序列中所处的状态,可以看出序列的二级结构预测结果为: 1到6位个氨基酸为无规卷曲,7到34位氨基酸为α螺旋,35到37位为β折叠,38位为α螺旋,39到44位为无规卷曲,45到49位为α螺旋,50到55位为无规卷曲,56到65为α螺旋,66到71位为无规卷曲,72到83位为α螺旋,84到86位为无规卷曲,87到95位为α螺旋,96到102为无规卷曲,103到108位为β折叠,108到117位为无规卷曲。 图5 图5为各种结构在序列中所占的比例,其中Alpha helix占55.56%,Extended strand占7.69%,Random coil占36.75%,无他二级结构。

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质功能-结构-相互作用预测网站工具合集

蛋白质组学 蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。 蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研究蛋白质组学的技术强得多,虽然在蛋白质组学研究中,质谱技术的研究已取得了一些进展。 尽管存在方法上的挑战,蛋白质组学正在迅速发展,并且对癌症的临床诊断和疾病治疗做出了重要贡献。几项研究鉴定出了一些蛋白质在乳腺癌、卵巢癌、前列腺癌和食道癌中表达变化。例如,通过蛋白质组学技术,人们可以在患者血液中明确鉴定出肿瘤标志物。表1列出了更多的蛋白质组学技术用于研究癌症的例子。 另外,高尔基体功能复杂。最新研究表明,它除了参与蛋白加工外,还能参与细胞分化及细胞间信号传导的过程,并在凋亡中扮演重要角色,其功能障碍也许和肿瘤的发生、发展有某种联系。根据人类基因组研究,约1000多种人类高尔基体蛋白质中仅有500~600种得到了鉴定,建立一条关于高尔基体蛋白质组成的技术路线将有助于其功能的深入研究。 蛋白质组学是一种有效的研究方法,特别是随着亚细胞器蛋白质组学技术的迅猛发展,使高尔基体的全面研究变为可能。因此研究人员希望能以胃癌细胞中的高尔基体为研究对象,通过亚细胞器蛋白质组学方法,建立胃癌细胞中高尔基体的蛋白质组方法学。 研究人员采用蔗糖密度梯度的超速离心方法分离纯化高尔基体,双向凝胶电泳(2-DE)分离高尔基体蛋白质,用ImageMaster 2D软件分析所得图谱,基质辅助激光解吸离子化飞行时间质谱(MALDI-TOF MS)鉴定蛋白质点等一系列亚细胞器蛋白质组学方法建立了胃癌细胞内高尔基体的蛋白图谱。 最后,人们根据分离出的纯度较高的高尔基体建立了分辨率和重复性均较好的双向电泳图谱,运用质谱技术鉴定出12个蛋白质,包括蛋白合成相关蛋白、膜融合蛋白、调节蛋白、凋亡相关蛋白、运输蛋白和细胞增殖分化相关蛋白。通过亚细胞器分离纯化、双向电泳的蛋白分离及MALDI-TOF MS蛋白鉴定分析,研究人员首次成功建立了胃癌细胞SGC7901中高尔基体的蛋白质组学技术路线。 3.1 蛋白质功能预测工具 也许生物信息学方法在癌症研究中最常用的就是基因功能预测方法,但是这些数据库只存储了基因组的大约一半基因的功能。为了在微阵列资料基础上完成功能性的富集分析,基因簇的功能注解是非常重要的。近几年生物学家研发了一些基因功能预测的方法,这些方法旨在超越传统的BLAST搜索来预测基因的功能。基因功能预测可以以氨基酸序列、三级结构、与之相互作用的配体、相互作用过程或基因的表达方式为基础。其中最重要的是基于氨基酸序列的分析,因为这种方法适合于微阵列分析的全部基因。 在表3中,前三项列举了三种同源搜索方法。FASTA方法虽然应用还不太广泛,但它要优于BLAST,或者至少相当。FASTA程序是第一个使用的数据库相似性搜索程序。为了达到较高的敏感程度,程序引用取代矩阵实行局部比对以获得最佳搜索。美国弗吉尼亚大学可以提供这项程序的地方版本,当然数据库搜索结果依赖于要搜索的数据库序列。如果最近的序列数据库版本在弗吉尼亚大学不能获得,那么就最好试一下京都大学(Kyoto University)的KEGG站点。PSI-BLAST(位点特异性反复BLAST)是BLAST的转化版本,PSI-BLAST的特色是每次用profile 搜索数据库后再利用搜索的结果重新构建profile,然后用新的profile再次搜索数据库,如此反复直至没有新的结果产生为止。PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比对来构建第一个profile。PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,有研究表明这种方法可以有效地找到很多序列差异较大而结构功能相似的相关蛋白,所以它比BLAST和FASTA有更好的敏感性。PSI-BLAST服务可以

蛋白质结构与功能的生物信息学研究

实验名称:蛋白质结构与功能的生物信息学研究 实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.doczj.com/doc/d410333501.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是 图形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构与功能的关系

蛋白质结构与功能的关系 专业:植物学 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。而分子模拟技术为蛋白质的研究提供了一种崭新的手段。在理论上解决了结构预测和功能分析以及蛋白质工程实施方面所面临的难题。它在蛋白质的结构预测和模建工作中占有举足轻重的地位,实现了生物技术与计算机技术的完美结合。 关键词:蛋白质的结构、功能;折叠/功能关系;蛋白质构象紊乱症;分子模拟技术;同源建模 RNase是由124个氨基酸残基组成的单肽链,分子中 8 个Cys的-SH构成4对二硫键,形成具有一定空间构象的蛋白质分子。在蛋白质变性剂和一些还原剂存在下,酶分子中的二硫键全部被还原,酶的空间结构破坏,肽链完全伸展,酶的催化活性完全丧失。当用透析的方法除去变性剂和巯基乙醇后,发现酶大部分活性恢复,所有的二硫键准确无误地恢复原来状态。若用其他的方法改变分子中二硫键的配对方式,酶完全丧失活性。这个实验表明,蛋白质的一级结构决定它的空间结构,而特定的空间结构是蛋白质具有生物活性的保证。前体与活性蛋白质一级结构的关系,由108个氨基酸残基构成的前胰岛素原,在合成的时候完全没有活性,当切去N-端的24个氨基酸信号肽,形成84个氨基酸的胰岛素原,胰岛素原也没活性,在包装分泌时,A、B链之间的33个氨基酸残基被切除,才形成具有活性的胰岛素。 功能不同的蛋白质总是有着不同的序列;种属来源不同而功能相同的蛋白质的一级结构,可能有某些差异,但与功能相关的结构也总是相同。若一级结构变化,蛋白质的功能可能发生很大的变化。蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强。 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥

蛋白质结构与功能的关系

蛋白质结构与功能的关系 (The relationship between protein structure and function) 摘要蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质结构;折叠/功能关系;蛋白质构象紊乱症;分子伴侣 Keywords:protein structure;fold/function relationship;protein conformational disorder;molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密,但结构与功能的这种关联亦若隐若现,并不能排除折叠差别悬殊的蛋白质执行相似的功能,折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈,该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内,此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位(fallosteric site)”,凹陷部位与配体分子在空间形状和静电上互补。此外,在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手,从原始的水平上发现蛋白质的潜藏机制【1】。 蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形,又非完全的无规线团(randomcoil),而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化,只保留某种几何特征或拓扑模式,并将其数字化。探求数字中所蕴含的规律,且根据这一规律将蛋白质进行分类,再将分类的结构与蛋白质的功能进行比较,以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系,那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中,多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说,共价键维系了蛋白质的一级结构;主链上的氢键维系了蛋白质的二级结构;而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础,蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础,而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。 牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏;,可导致蛋白质的理比性质和生物学性质的变化,这就是蛋白质变性。变性的蛋白质,只要其一级结构仍然完好,可在一定条件下恢复其空间结构,随之理化性质和生物学性质也可重现,这被称为复性。RNase是由124个氨基酸残基组成的一条肽链,分子中8个半胱氨酸的巯基构成4对二硫键,进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性,其分子中的氢键和4个二硫键解开,严密的空间结构遭破坏,丧失了生物学活性,但一级结构完整无损。若去除尿素和β巯基乙醇,RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种,复性时之所以选择了自

蛋白质结构与功能的生物信息学研究汇总

实验名称:蛋白质结构与功能的生物信息学研究实验目的:1.掌握运用BLAST工具对指定蛋白质的氨基酸序列同源性搜索 的方法。 2.掌握用不同的工具分析蛋白质的氨基酸序列的基本性质 3掌握蛋白质的氨基酸序列进行三维结构的分析 4.熟悉对蛋白质的氨基酸序列所代表蛋白的修饰情况、所参与的 代谢途径、相互作用的蛋白,以及与疾病的相关性的分析。 实验方法和流程: 一、同源性搜索 同源性从分子水平讲则是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。BLAST工具能对生物不同蛋白质的氨基酸序列或不同的基因的DNA序列极性比对,并从相应数据库中找到相同或相似序列。对 指定的蛋白质的氨基酸序列进行同源性搜索步骤如下: ↓ 登录网址https://www.doczj.com/doc/d410333501.html,/blast/ ↓ 输入序列后,运行blast工具 ↓ 序列比对的图形结果显示

序列比对的图形结果:用相似性区段(Hit)覆盖输入序列的范围判断两个序列 的相似性。如果图形中包含低得分的颜色(主要是红色) 区段,表明两序列的并非完全匹配。 ↓ 匹配序列列表及得分

各序列得分 可选择不同的比对工具 备注: Clustal是一款用来对()的软件。可以用来发现特征序列,进行蛋白分类,证明 序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及 在分子进化分析方面均有很大帮助。Clustal包括Clustalx和Clustalw(前者是图 形化界面版本后者是命令界面),是生物信息学常用的多序列比对工具。 该序列的比对结果有100条,按得分降序排列,其中最大得分2373,最小得分 分为1195. ↓ 详细的比对序列的排列情况 第一个匹配 序列 第一个序列的匹配率为100% Score表示打分矩阵计算出来的值,由搜索算法决定的,值越大说明匹配程度

蛋白质结构预测在线软件

蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(,参见表一

蛋白质结构及功能预测

物理性质预测 Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemass http://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.doczj.com/doc/d410333501.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 http://expaxy.hcuge.ch/ch2d/aacompi.html AACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.embl-heidelberg.de/prs.html 二级结构和折叠类预测 https://www.doczj.com/doc/d410333501.html,/~nomi/nnpredictPredictprotein http://www.embl-heidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.htmlSSPRED http://www.embl-heidelberg.de/sspred/ssprd_info.html 特殊结构或结构预测 http://ulrec3.unil.ch/software/COILS_form.htmlMacStripe https://www.doczj.com/doc/d410333501.html,/matsudaira/macstripe.html 检索 由NCBI检索蛋白质序列 https://www.doczj.com/doc/d410333501.html,:80/entrz/query.fcgi?db=protein进行检索。 利用SRS系统从EMBL检索蛋白质序列 https://www.doczj.com/doc/d410333501.html,/可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 疏水性分析 位于ExPASy的ProtScale程序https://www.doczj.com/doc/d410333501.html,/cgi-bin/protscale.pl可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出

蛋白质结构预测在线软件

蛋白质结构预测在线软 件 Company Document number:WUUT-WUUY-WBBGB-BWYTT-1982GT

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW? ? SAPS? 基于组成的蛋白质识别预测? AACompIdentPROPSEARCH? 二级结构和折叠类预测? nnpredict? Predictprotein? SSPRED? 特殊结构或结构预测? COILS? MacStripe? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(,参见表一? 资源名称网址说明?

蛋白质的结构和功能的关系

蛋白质结构与功能的关系 摘要:蛋白质特定的功能都是由其特定的构象所决定的,各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化,必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化,可能导致蛋白质构象紊乱症,当然也能引起生物体对环境的适应性增强!现而今关于蛋白质功能研究还有待发展,一门新兴学科正在发展,血清蛋白组学,生物信息学等!本文仅就蛋白质结构与其功能关系进行粗略阐述。 关键词:蛋白质分子一级结构、空间结构、折叠/功能关系、蛋白质构象紊乱症;分子伴侣 正文: 1、蛋白质分子一级结构和功能的关系 蛋白质分子中关键活性部位氨基酸残基的改变,会影响其生理功能,甚至造成分子病(molecular disease)。例如镰状细胞贫血,就是由于血红蛋白分子中两个β亚基第6位正常的谷氨酸变异成了缬氨酸,从酸性氨基酸换成了中性支链氨基酸,降低了血红蛋白在红细胞中的溶解度,使它在红细胞中随血流至氧分压低的外周毛细血管时,容易凝聚并沉淀析出,从而造成红细胞破裂溶血和运氧功能的低下。 另一方面,在蛋白质结构和功能关系中,一些非关键部位氨基酸残基的改变或缺失,则不会影响蛋白质的生物活性。例如人、猪、牛、羊等哺乳动物胰岛素分子A链中8、9、10位和B链30位的氨基酸残基各不相同,有种族差异,但这并不影响它们都具有降低生物体血糖

浓度的共同生理功能。 蛋白质一级结构与功能间的关系十分复杂。不同生物中具有相似生理功能的蛋白质或同一种生物体内具有相似功能的蛋白质,其一级结构往往相似,但也有时可相差很大。如催化DNA复制的DNA聚合酶,细菌的和小鼠的就相差很大,具有明显的种族差异,可见生命现象十分复杂多样。 2、蛋白质分子空间结构和功能的关系 蛋白质分子空间结构和其性质及生理功能的关系也十分密切。不同的蛋白质,正因为具有不同的空间结构,因此具有不同的理化性质和生理功能。如指甲和毛发中的角蛋白,分子中含有大量的α-螺旋二级结构,因此性质稳定坚韧又富有弹性,这是和角蛋白的保护功能分不开的;而胶原蛋白的三股π螺旋平行再几股拧成缆绳样胶原微纤维结构,使其性质稳定而具有强大的抗张力作用 又如细胞质膜上一些蛋白质是离子通道,就是因为在其多肽链中的一些α-螺旋或β-折叠二级结构中,一侧多由亲水性氨基酸组成,而另一侧却多由疏水性氨基酸组成,因此是具有“两亲性”(amphipathic)的特点,几段α-螺旋或β-折叠的亲水侧之间就构成了离子通道,而其疏水侧,即通过疏水键将离子通道蛋白质固定在细胞质膜上。载脂蛋白也具有两亲性,既能与血浆中脂类结合,又使之溶解在血液中进行脂类的运输。 3、折叠/功能关系 体内各种蛋白质都有特殊的生理功能,这与空间构象有着密切的

相关主题
文本预览
相关文档 最新文档