当前位置：文档之家› 蛋白质的功能域、结构及其药物设计----6

蛋白质的功能域、结构及其药物设计----6

第六章蛋白质的功能域、结构及其药物设计

随着人类基因组全序列测定的完成，预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术，也可以基于蛋白质技术，即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的，而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应，均是一个整体概念，但是两者又有根本的不同：一个有机体只有一个确定的基因组，组成该有机体的所有不同细胞都共享有一个基因组；但是，基因组内各个基因表达的条件、时间和部位等不同，因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此，蛋白质组又是一个动态的概念。由于以上原因，再加上由于基因剪接，蛋白质翻译后修饰和蛋白质剪接，基因遗传信息的表达规律更趋复杂，不再是经典的一个基因一个蛋白的对应关系，而是一个基因可以表达的蛋白质数目大于一。由此可见，蛋白质组研究是一项复杂而艰巨的任务。

蛋白质结构与功能的研究已有相当长的历史，由于其复杂性，对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中，如Chou和Fasman提出的经验参数法便是最突出的例子。

该方法统计分析了各种氨基酸的二级结构分布特征，得出相应参数(P

а,P

和P

)并

用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。

第一节蛋白质功能预测

一、根据序列预测功能的一般过程

如果序列重叠群(contig)包含有蛋白质编码区，则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得，如疏水性，它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是，总的来说，我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻，比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析：

①比较未知蛋白序列与已知蛋白质序列的相似性；

②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。

图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线，所得出的分析结果并不会总是相一致。一般来说，数据库相似性搜索获得的结果最为可靠，而来自PROSITE的结果相对不可靠。

图6.1 根据序列预测蛋白质功能的技术路线

二、通过比对数据库相似序列确定功能

具有相似序列的蛋白质具有相似的功能。因此，最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。具体的搜索方法可参见第三章，但应记住，一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。

已有不少种类的数据库搜索工具，它们或者搜索速度慢，但灵敏；或者快速，但不灵敏。快速搜索工具(如BLASTP)很容易发现匹配良好的序列，所以没有必要再运行更花时的工具(如FASTA、BLITZ)；只有在诸如BLASTP不能发现显著的匹配序列时，这些工具才被使用。所以，一般的策略是首先进行BLAST检索，如果不能提供相关结果，运行FASTA；如果FASTA也不能得到有关蛋白质功能的线索，最后可选用完全根据Smith-Waterman算法设计的搜索程序，例如BLITZ(https://www.doczj.com/doc/6e4841538.html,/searches/blitz.html)。BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计)，所以很花时，但非常灵敏。通常诸如BLITZ的程序能够发现超过几百个残基但序列相同比率低于20～25%的匹配，这些匹配可能达到显著，但会被那些应用近似估计的程序错过。

还应注意计分矩阵(scoring matrix)的重要性。选用不同的计分矩阵有不少重要原因：首先，选用的矩阵必须与匹配水平相一致，例如，PAM250应用于远距离匹配(<25%相同比率)，PAM40应用于不很相近的蛋白质序列，而BLOSUM62是一个通用矩阵；第二，使用不同矩阵，可以发现始终出现的匹配序列，这是一条减少误差的办法。

除了选用不同的计分矩阵，同样可以考虑选用不同的数据库。通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。其它一些数据库也可以试试，如可用BLASTP搜索复合蛋白质序列库OWL (https://www.doczj.com/doc/6e4841538.html,/bsm/dbbrowser/OWL/owl_blast.html)。

二、序列特性：疏水性、跨膜螺旋等

许多功能可直接从蛋白质序列预测出来。例如，疏水性信息可被用于跨膜螺旋的预测。还有不少小的模序(motif)是细胞用于特定细胞区室(cell compartment)蛋白质的定向。网上有大量数据资源帮助我们利用这些特性预测蛋白质功能。

疏水性信息可用ExPASy(http://expasy.hcuge.ch/egibin/protscal.pl)的ProtScale程序创建并演示。这是一个很有用的工具，它能计算超过50种蛋白质的特性。程序的输入即可通过输入框将序列粘贴进去，也可输入SWISS-PROT的记录号。仅一项需要额外设定的参数是输入框的宽度，该参数将指示系统每次运行计算和显示的残基数，其缺省值为9。如果想考虑跨膜螺旋特性，该参数设置应为20，因为一个跨膜螺旋通常有20个氨基酸长度。图6.2是ProtScal程序的一个典型结果显示格式。

图171 图16.2

有多种方法可以预测序列的跨膜螺旋。最简单的方法是通过查找包含有20个疏水残基的区段，一些更复杂、更准确的算法不仅可以预测跨膜螺旋的位置，还能确定其在膜上的方向。这些方法都依赖于一系列已知跨膜螺旋特性的研究结果。TMbase是一个自然发生的跨膜螺旋数据库(http://ulrec3.unil.ch/tmbase/TMBASE_doc.html)。相关的一些程序：TMPRED (http://ulrec3.unil.ch/software/TMPRED-form.html)、PHDhtm (www.embl_heidelberg.de/services/sander/predictprotein/predictprotein. html)、TMAP (http://www.embl-heidelberg.de/tmap/tmap/tmap_sin.html)和MEMSAT (https://www.doczj.com/doc/6e4841538.html,)。这些程序将使用了不同的统计模型，总体上，预测准确率在80～95%左右。跨膜螺旋是可以根据序列数据比较准确预测的蛋白质特性之一。

预测前导序列或特殊区室靶蛋白信号的程序：SignalP (http://www.cbs.dtu.dk/services/SignalP)和PSORT (http://psort.nibbac.jp/form.html)。另一个可从序列中确定的功能模序是卷曲(coil)螺旋。在这一结构中，二个螺旋由于疏水作用而缠绕在一起形成非常稳定的结构。相关的2个程序：COILS (http://ulrec3.unil.ch/software/COILS_form.html)和Paircoil (https://www.doczj.com/doc/6e4841538.html,/cgi-bin/score)。

四、通过比对模序数据库等确定功能

经常会出现这样的情况：通过列线，未知蛋白质序列与数据库内已知功能的序列均相差较大，找不到可靠的匹配结果，相反，也许会发现与某一不知功能的序列相匹配。对于这一情况，仍然可以用生物信息学工具进行一些分析。

蛋白质不同区段的进化速率不同：蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能，通过确定这些保守区域，有可能为蛋白质功能提供线索。例如，有许多短序列可以识别蛋白质活性位点或结合区域。整联蛋白(integrin)受体识别RGD或LDV配体模序(motif)，如果未知序列中包含有RGD模序，则可推测未知序列的一个功能可能是结合整联蛋白。这样的推测并不是说该蛋白质序列一定会结合整联蛋白(许多含有RGD的蛋白质并不结合整联蛋白)，但它的确为我们提供了一个可供试验的假设。还有些例子是保守序列位于酶活性位点、转录后修饰位点、协作因子结合位点或蛋白质分类信号等，不少有关这些保守模式(pattern)的生物信息学资源已经建立起来，并已用于在序列的搜索比对。

主要有二种方法可用于序列模序的查找。一种方法是查找匹配的一致(consensus)序列或模序。该技术的优点是快捷，模序数据库庞大且不断被扩充；缺点是有时不灵敏，因为只有与一致序列或模序完全匹配才会被列出，而近乎匹配的都将被忽略。这将使你进行更复杂的分析时受到严重限制。这时，第二种方法，一种更精细的序列分布型(profile)方法将发生作用。原则上，分布型搜索的是保守序列(不只是一致序列)，这样可以更灵敏地找出那些相关性较远的序列。但是分布型和分布型数据库的创建并非易事，它需要大量的计算和人力，因此，分布型数据库的记录数并没有模序数据库多。在实际分析时，应同时对这二种类型的数据库都进行搜索，其中在一个数据库中显著的匹配可能在另一个数据库中

被完全错过，反之亦然。

最知名的模序数据库是PROSITE(http://expasy.hcuge.ch/sprot/prosite.html)。PROSITE记录的典型形式（以酪蛋白激酶Ⅱ磷酸化位点的一致序列为例）：[ST]-x(2)-[DE]，即一个丝氨酸(S)或酪氨酸(T)紧跟任意2个残基，然后再是一个D或E。另外记录中包含了位点其它一些重要信息，如位点的作用、在何处被发现等。

分布型(profile)数据库主要有BLOCKS (https://www.doczj.com/doc/6e4841538.html,/blocks/)、PRINTS (https://www.doczj.com/doc/6e4841538.html,/bsm/dbbrowers/PRINTS/)和ProDom (http://protein.toulouse.inra.fr/prodom/prodom.html)。正如其它生物信息学资源一样，这些数据库总是在规模和质量之间寻求平衡。对于分布型数据库的质量来说，还包括多序列列线产生的分布型。记录数最多的数据库是依赖于自动列线程序，得到的结果有时并非是最佳结果；而记录数少的数据库一般花很多时间用于分析，人工核对列线结果，力求产生高质量的结果。一般地，分析时应搜索所有的相关数据库，以保证没有任何的遗漏。BLOCKS数据库是利用PROSITE数据库模序经无空位多序列列线构建而成，PRINTS数据库(最小的数据库)的记录来自保守序列的多序列列线，而ProDom数据库(version33)数据则来自9600个蛋白功能区模序(domain motif)的列线结果。以上列出的数据库具体情况和输出结果(有时还挺复杂)等可参照各数据库的帮助说明。

第二节蛋白质结构预测

一、蛋白质结构及其数据库

一般情况下，蛋白质的结构分为4个层次：

初级结构——蛋白质序列；

二级结构——а－螺旋和β－折叠片(β-sheets)模式；

三级结构——残基在空间的布局；

四级结构——蛋白质之间的互作。

近年来，另一个介于二级和三级结构之间的蛋白质结构层次——所谓蛋白质折叠(fold)已被证明非常有用。“fold”描述的是二级结构元素的混合组合方式。

根据序列或多序列列线预测蛋白质二级结构的技术已相对比较成熟(见下小节)，但三级结构的预测则相当困难。往往对于三级结构预测，只能通过与已知结构蛋白序列同源性比对来完成。已有不少相关数据库被建立起来用于蛋白质结构预测。这一方法已是目前进行三级结构预测的最准确方法(见第三小节)。但是这一方法并不总是奏效，因为大约有80%的已知蛋白质序列找不到与之相似的已知结构的蛋白质序列。近年来，一些新方法被提出，这些方法可以不通过相似性比对来预测序列结构。

蛋白质结构数据库主要包括PDB、NRL－3D、HSSP、SCOP和CATH等，这些数据库的基本情况及网址请参阅第二章蛋白质数据库一节。

二、二级结构预测

已有大量有关根据序列预测蛋白质二级结构的文献资料，这些资料可大致分为二类：一是有关根据单一序列预测二级结构；二是有关根据多序列列线预测二级结构。

直到最近为止，二级结构预测才不被认为具有很高的随机性。大多数预测算法均是依据单一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有约60%的预测准确率，而对于一些特定的结构，如那些富含β－折叠片的结构，这些算法难以预测成功。预测失败的原因主要是单一序列所提供的信息只是残基的顺序而没有其空间分布的信息。两个方面的研究进展改变了这一状况：一是认识到多序列列线可被用于改进预测能力。多序列列线可被视为诱变遗传学试验中的自然突变状况，其对序列上单一位点变异的分析的确提供了该位点在蛋白质三级结构中的信息；二是神经网络已开始被用于根据序列预测结构。目前已有这样一个共识，即在有大量、高质量的多序列列线结果的情况下，蛋白质二级结构的预测将非常准确——通常准确率比以单一序列预测提高10%。一些文献表明，一些程序(诸如PHD)预测的准确率达到了目前最高水平。PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)提供了从二级结构预测到折叠(fold)识别等一系列功能。

三、三级结构预测

比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用BLASTP程序比对NRL－3D或SCOP数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列，则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下，同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为25%～40%时，两条蛋白质将具有相同的折叠，但这时同源性建模将变得更加困难和不准确。

如果在比对NRL－3D数据库时没有发现匹配序列，接下去可试试HSSP数据库。这样做的一条最方便捷径是用BLAST或FASTA法搜索蛋白质序列库(如SWISS-PROT、TREMBL或PIR)，然后利用诸如SRS等工具去检索任何超过25%序列相同率的匹配序列，如果这些匹配序列在HSSP数据库中存在，则在该序列的注释(annotation)“DR”栏中将有说明(参见第三章)。如果未知蛋白质序列与某一HSSP 数据库序列有明显大于25%的序列相同率，则有把握地假定未知序列至少有与HSSP 序列相同的蛋白质折叠模式。目前，NRL－3D和HSSP数据库的记录数量可以保证20%的蛋白质序列将找到已知结构的同源序列。

总的来说，同源性建模需要专业分子建模方法和分子图象资源的辅助才能进行。不妨到Swiss－Model网站(http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html)看看。Swiss－Model是一个蛋白质自动建模服务器，使用者可以直接发送一条序列或使用者自己完成的列线结果给该服务器用于同源性建模。

近年蛋白质结构研究的最主要进展之一，是有关“串线”(threading)算法和折叠识别。这些使人兴奋的技术可以在不存在已知结构同源蛋白质序列的情况下，预测所有可能的蛋白质结构。“这个未知蛋白序列会是什么结构呢？”我们也可以这样问：“我已经观察了已知结构蛋白质的各种折叠方式，未知序列是否会象这些已知结构中的某一个一样折叠呢？”第一个问题涉及几十亿种可能结构的搜索，而第二个问题涉及的是少于1000种结构的搜索。特定的蛋白质折叠被一而再，再而三地观察到——大部分新的经晶体衍射的蛋白将会与我们已知的折叠相关，这些过程使预测的成功机率不断提高。在串联算法中，未知序列以合适的方式被“串”到一个数据库某一折叠模板，然后计算该序列的能(energy)；在该序列与数据库中所有的折叠模板均“串”好后，可以进行计分比对，决定那些匹配达到了显著。折叠的识别技术目前还不是特别可靠的技术，只有在序列相同比率在30%～50%时，

才有可能获得准确的估计。相关程序的结果也相当粗糙，大多数情况下难以作为同源性建模研究的依据。但是它是大多数蛋白质结构预测信息唯一可利用的工具。一些相关应用程序：TOPITS(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)、frsvr(https://www.doczj.com/doc/6e4841538.html,/people/frsvr/frsvr.html)、123D(http://www_https://www.doczj.com/doc/6e4841538.html,/~nicka/123D.html)、THREADER和THREADER2(https://www.doczj.com/doc/6e4841538.html,/~jones/threader.html)和ProFIT(http:lore.came.sbg.ac.at/Extern/software/Profit/profit.html)。

第三节计算机辅助药物设计1

开发一种新药需要平均10-12年，筛选1.5-2万种化合物，3-5亿美元。开发新药有两个瓶颈问题：疾病相关的靶标大分子的确定；具有生物活性的小分子药物的设计与发现。计算机辅助药物设计（computer-aided drug design, CADD）分为间接与直接设计，其基本原理 “锁钥原理”：E. Fischer(1894)提出药物作用于体内特定部位，如同钥匙和锁的关系一样

间接药物设计

定量构效关系（quantitative structure-activity relationship, QSAR): Hansch(1962)和Free & Wilson(1964)提出。不考虑化合物的空间结构，称为2D- QSAR。

3D- QSAR: CoMFA(比较分子力场分析）、距离几何（distance geometry)等

药效基因模型法

直接药物设计

以药物作用对象——靶标生物大分子的三维结构为基础，研究小分子与受体的相互作用，设计出从空间形状和化学特性两方面都可以很好与靶标分子“结合口袋”相匹配的药物分子。

分为全新药物设计（de novo drug design）和分子对接（docking）或数据库搜索两种方法。

全新药物设计

根据“结合口袋”的几何形状和化学特征设计药物分子

碎片连接法：基团或原子+适当的连接片段

碎片生长法：从靶标分子的结合空腔一端“延伸”出药物分子

分子对接（数据库搜索）

1本部分内容取自罗小民等，生物信息学与药物设计，见：赵国屏等主编，生物信息学，科学出版社，2001

首先建立大量（几十到上百万）的化合物的三维数据库，然后用库中的分子与靶标分子进行“对接”（docking)，选出最佳构象的分子（前50-100个）供药理测验。

Kuntz(1982)发展了第一个Dock程序，这一方法取得巨大成功

设计实例：HIV-蛋白抑制剂

蛋白质结构与功能的关系

蛋白质结构与功能的关系蛋白质的结构包括一级结构、二级结构、三级结构、四级结构。一级结构是蛋白质的一级结构指在蛋白质分子从N-端至C-端的氨基酸排列顺序。一级结构是蛋白质空间构象和特异生物学功能的基础，但不是决定蛋白质空间构象的唯一因素。蛋白质的二级结构是指多肽链的主链骨架本身在空间上有规律的折叠和盘绕，它是由氨基酸残基非侧链基团之间的氢键决定的。常见的二级结构有α螺旋、三股螺旋、β折叠、β转角、β凸起和无规卷曲。α螺旋中肽链骨架围绕一个轴以螺旋的方式伸展，它可能是极性的、疏水的或两亲的。β折叠是肽链的一种相当伸展的结构，有平行和反平行两种。如果β股交替出现极性残基和非极性残基，那么就可以形成两亲的β折叠。β转角指伸展的肽链形成180°的U形回折结构而改变了肽链的方向。β凸起是由于β折叠股中额外插入一个氨基酸残基而形成的，它也能改变多肽链的走向。无规卷曲是在蛋白质分子中的一些极不规则的二级结构的总称。无规卷曲无固定走向，有时以环的形式存在，但不是任意变动的。从结构的稳定性上看，右手α螺旋＞β折叠＞ U型回折＞无规卷曲，但在功能上，酶与蛋白质的活性中心通常由无规卷曲充当，α右手螺旋和β折叠一般只起支持作用。蛋白质的三级结构是指多肽链在二级结构的基础上，进一步盘绕、卷曲和折叠，形成主要通过氨基酸侧链以次级键以及二硫键维系的完整的三维结构。三级结构通常由模体和结构域组成。稳定三级结构的化学键包括氢键、疏水键、离子键、范德华力、金属配位键和二硫键。模体可用在一级结构上，特指具有特殊生化功能的序列模体，也可被用于功能模体或结构模体，相当于超二级结构。结构模体是结构域的组分，基本形式有αα、βαβ和βββ等。常见的模体包括：左手超螺旋、右手超螺旋、卷曲螺旋、螺旋束、α螺旋-环-α螺旋、Rossmann卷曲和希腊钥匙模体。结构域是在一个蛋白质分子内的相对独立的球状结构和/或功能模块，由若干个结构模体组成的相对独立的球形结构单位，它们通常是独自折叠形成的，与蛋白质的功能直接相关。一个结构域通常由一段连续的氨基酸序列组成。根据其占优势的二级结构元件的类型，结构域可分为五大类：α结构域、β结构域、α/β结构域、α+β 结构域、交联结构域。以上每一类结构域的二级结构元件可能有不同的组织方式，每一种组织就是一种结构模体。这些结构域都有疏水的核心，疏水核心是结构域稳定所必需的。具有两条和两条以上多肽链的寡聚蛋白质或多聚蛋白质才会有四级结构。组成寡聚蛋白质或多聚蛋白质的每一个亚基都有自己的三级结构。蛋白质的四级结构内容包括亚基的种类、数目、空间排布以及亚基之间的相互作用。驱动四级结构形成或稳定四级结构的作用力包括

三种分析蛋白结构域的方法

三种分析蛋白结构域(Domains)的方法 1，SMART入门，蛋白结构和功能分析 SMART介绍 SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. More than 500 domain families found in signalling, extracellular and chromatin-associated proteins are detectable. These domains are extensively annotated with respect to phyletic distributions, functional class, tertiary structures and functionally important residues. Each domain found in a non-redundant protein database as well as search parameters and taxonomic information are stored in a relational database system. User interfaces to this database allow searches for proteins containing specific combinations of domains in defined taxa. For all the details, please refer to the publications on SMART. SMART(，可以说是蛋白结构预测和功能分析的工具集合。简单点说，就是集合了一些工具，可以预测蛋白的一些二级结构。如跨膜区（Transmembrane segments），复合螺旋区（coiled coil regions），信号肽（Signal peptides），蛋白结构域（PFAM domains）等。 SMART前该知道的 1，SMART有两种不同的模式：normal 或genomic 主要是用的数据库不一样。Normal SMART, 用的数据库 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes。Genomic SMART, 用全基因组序列。详细列表：，一些名词解释进行时可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl??ID / Accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测，勾上就是。看下图 SMART结果运行后的结果用图表表示。其实运行后的结果都有明确的解释。详细请看下面。

蛋白质结构与功能的关系

蛋白质结构与功能的关系蛋白质的主要功能：已知有些蛋白质具有多种功能，也有些蛋白质功能至今尚未阐明。蛋白质在机体内几乎无处不发挥各种特有的功能。 1：构成细胞和生物体结构蛋白质是组成人体各种组织、器官、细胞的重要成分。人的肌肉，内脏、神经、血液、骨骼等，包括皮肤，毛发都含有丰富的蛋白质。蛋白质是细胞的重要结构组分，如膜蛋白质，细胞器的组成蛋白质，染色体蛋白质等。这些组织细胞每天都在不断的更新。因此，人体必须每天摄入一定量的蛋白质，作为构成和补充组织细胞的原料。 2：物质运输体内的各种物质主要通过血液进行运输。人体不断地从外界获取的营养物质和氧气运输到组织细胞，将代谢产生的废物排出体外。血红蛋白可以携带氧气到身体的各个部分，供组织细胞代谢使用。体内有许多营养素必须与某种特异的蛋白质结合，将其作为载体才能运转。例如血液中的载脂蛋白不仅运输脂质，还具有调节被运输脂质代谢的作用。清蛋白能与脂肪酸，ca2+.胆红素，磺酸等多种物质结合。此外，血浆中还有皮质激素传递蛋白，运铁蛋白，铜蓝蛋白等。 3：催化功能人体内每时每刻都进行着化学反应来实施新陈代谢。大量的酶类快速精准的催化化学反应，所有的生命活动都离不开酶和水的参与，没有酶就没有生命。这些各具特殊功能的酶，绝大多数是蛋白质。 4：信息交流存在于细胞膜上使细胞对外界刺激产生相应的效应的受体是蛋白质。信号转导通路中的衔接蛋白，含有各种能与其他蛋白质结合的结构域，能形成各种信号复合体。通过特异性的蛋白质—蛋白质相互作用形成蛋白质复合体来激活下游信号通路。 5：免疫功能保护机体抵抗相应病原体的感染的抗体、淋巴因子等免疫分子，都是蛋白质。6：氧化功能体内的蛋白质可以彻底氧化分解为水，二氧化碳，并释放能量。正常膳食情况下，机体首先利用糖提供能量。饥饿时，组织蛋白质分解增加，故氧化供能是蛋白质的生理功能。 7：维持机体的酸碱平衡机体内组织细胞必须处于合适的酸碱度范围内才能完成其正常的生理活动。机体的这种维持酸碱平衡的能力是通过肺，肾以及血液缓冲系统来实现的。蛋白质缓冲体系是血液缓冲系统的重要组成部分。因此，蛋白质在维持机体酸碱平衡方面起着十分重要的作用。 8：维持正常的血浆渗透压血浆胶体渗透压主要由蛋白质分子构成，其中，血浆清蛋白分子量较小，数目较多，决定血浆胶体渗透压的大小。血浆渗透压能使血浆和组织之间的物质交换保持平衡。如果血浆蛋白质特别是清蛋白的含量降低，血液内的水分便会过多地渗入周围组织，造成临床上的营养不良性水肿。

蛋白质结构与功能的关系94592

蛋白质结构与功能的关系（The relationship between protein structure and function）摘要蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强！现而今关于蛋白质功能研究还有待发展，一门新兴学科正在发展，血清蛋白组学，生物信息学等！本文仅就蛋白质结构与其功能关系进行粗略阐述。关键词：蛋白质结构；折叠/功能关系；蛋白质构象紊乱症；分子伴侣 Keywords：protein structure；fold／function relationship；protein conformational disorder；molecular chaperons 虽然蛋白质结构与生物功能的关系比序列与功能的关系更加紧密，但结构与功能的这种关联亦若隐若现，并不能排除折叠差别悬殊的蛋白质执行相似的功能，折叠相似的蛋白质执行差别悬殊功能的现象的存在。无奈，该领域仍不得不将100多年前Fisher提出的“锁一钥匙”模型(“lock—key”model)和50多年前Koshand提出的诱导契合模型(induce fitmodel)作为蛋白质实现功能的理论基础。这2个略显粗糙的模型只是认为蛋白质执行功能的部位局限在结构中的一个或几个小区域内，此类区域通常是蛋白质表面上的凹洞或裂隙。这种凹洞或裂隙被称为“活性部位(active site)”或“别构部位（fallosteric site）”，凹陷部位与配体分子在空间形状和静电上互补。此外，在酶的活性部位中还存在着几个作为催化基团(catalyticgroup)的氨基酸残基。对蛋白质未来的研究应从实验基本数据的归纳和统计入手，从原始的水平上发现蛋白质的潜藏机制【1】。蛋白质结构与功能关系的研究主要是以力求刻画蛋白质的3D结构的几何学为基础的。蛋白质结构既非规则的几何形，又非完全的无规线团(randomcoil)，而是有序(α一螺旋和β一折叠)与无序(线团或环域loop)的混合体。理解蛋白质3D结构的技巧是将结构简化，只保留某种几何特征或拓扑模式，并将其数字化。探求数字中所蕴含的规律，且根据这一规律将蛋白质进行分类，再将分类的结构与蛋白质的功能进行比较，以检验蛋白质抽象结构的合理性。如果一种对蛋白质结构的简化、比较和分类能与蛋自质的功能有较好地对应关系，那么这就是一种对蛋白质结构的有价值的理解。蛋白质结构中，多种弱力(氢键、范德华力、静电相互作用、疏水相互作用、堆积力等)和可逆的二硫键使多肽链折叠成特定的构象。从某种意义上说，共价键维系了蛋白质的一级结构；主链上的氢键维系了蛋白质的二级结构；而氨基酸侧链的相互作用和二硫桥维系着蛋白质的三级结构。亚基(subunit)内部的侧链相互作用是构象稳定的基础，蛋白质链之间的侧链的相互作用是亚基组装(四级结构)的基础，而蛋白质中侧链与配体基团问的相互作用是蛋白质行使功能的基础。牛胰核糖核酸酶(RNase)变性和复性的实验是蛋白质结构与功能关系的很好例证。蛋白质空间结构遭到破坏；，可导致蛋白质的理比性质和生物学性质的变化，这就是蛋白质变性。变性的蛋白质，只要其一级结构仍然完好，可在一定条件下恢复其空间结构，随之理化性质和生物学性质也可重现，这被称为复性。RNase是由124个氨基酸残基组成的一条肽链，分子中8个半胱氨酸的巯基构成4对二硫键，进而形成具有一定空间构象的活性蛋白质。天然RNase遇尿素和β巯基乙醇时发生变性，其分子中的氢键和4个二硫键解开，严密的空间结构遭破坏，丧失了生物学活性，但一级结构完整无损。若去除尿素和β巯基乙醇，RNase又可恢复其原有构象和生物学活性。RNase分子中的8个巯基若随机排列成二硫键可有105种方式。有活性的RNase只是其中的一种，复性时之所以选择了自

生物化学蛋白质的结构与功能试题及答案

第一章蛋白质的结构与功能 [测试题] 一、名词解释：1．氨基酸 2．肽 3．肽键 4．肽键平面 5．蛋白质一级结构 6．α-螺旋 7．模序 8．次级键 9．结构域 10．亚基 11．协同效应 12．蛋白质等电点 13．蛋白质的变性 14．蛋白质的沉淀 15．电泳 16．透析 17．层析 18．沉降系数 19．双缩脲反应 20．谷胱甘肽二、填空题 21．在各种蛋白质分子中，含量比较相近的元素是____，测得某蛋白质样品含氮量为15.2克，该样品白质含量应为____克。 22．组成蛋白质的基本单位是____，它们的结构均为____，它们之间靠____键彼此连接而形成的物质称为____。 23．由于氨基酸既含有碱性的氨基和酸性的羧基，可以在酸性溶液中带____电荷，在碱性溶液中带____电荷，因此，氨基酸是____电解质。当所带的正、负电荷相等时，氨基酸成为____离子，此时溶液的pH值称为该氨基酸的____。 24．决定蛋白质的空间构象和生物学功能的是蛋白质的____级结构，该结构是指多肽链中____的排列顺序。25．蛋白质的二级结构是蛋白质分子中某一段肽链的____构象，多肽链的折叠盘绕是以____为基础的，常见的二级结构形式包括____，____，____和____。 26．维持蛋白质二级结构的化学键是____，它们是在肽键平面上的____和____之间形成。 27．稳定蛋白质三级结构的次级键包括____，____，____和____等。 28．构成蛋白质的氨基酸有____种，除____外都有旋光性。其中碱性氨基酸有____，____，____。酸性氨基酸有____，____。 29．电泳法分离蛋白质主要根据在某一pH值条件下，蛋白质所带的净电荷____而达到分离的目的，还和蛋白质的____及____有一定关系。 30．蛋白质在pI时以____离子的形式存在，在pH>pI的溶液中，大部分以____离子形式存在，在pH

生物信息学现状与展望

研究生课程考试卷学号、姓名： j20112001 苗天锦年级、专业：2011生物化学与分子生物学培养层次：硕士课程名称：生物信息学授课学时学分： 32学时 2学分考试成绩：授课或主讲教师签字：

生物信息学现状与展望摘要：生物信息学是一门新兴学科，起步于20世纪90年代，至今已进入"后基因组时代"，本文对生物信息学的产生背景及其研究现状等方面进行了综述，并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。关键词：生物信息学；生物信息学背景；发展前景一、生物信息学概述 1.生物信息学发展历史随着生物科学技术的迅猛发展，生物信息数据资源的增长呈现爆炸之势，同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能，为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用，一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构（双螺旋）。Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA 聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。Meselson与Stahl （1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai（1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作，人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图，预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

生物化学第二章蛋白质的结构与功能随堂练习与参考答案

生物化学（本科）第二章蛋白质的结构与功能随堂练习与参考答案第一节蛋白质的分子组成第二节蛋白质的结构第三节蛋白质的结构与理化性质之间的关系第四节蛋白质的结构与功能的关系第五节蛋白质的分类第六节血浆蛋白质 1. (单选题)测得某一蛋白质溶液N元素的含量为4 g/L，则该溶液中蛋白质含量约为 A．16 g/L B．20 g/L C．25 g/L D．30 g/L E．40 g/L 参考答案：C 2. (单选题)组成蛋白质的氨基酸基本上属于 A．L-β-氨基酸 B．D-β-氨基酸 C．L-α-氨基酸

D．D-α-氨基酸 E．L、D-α-氨基酸参考答案：C 3. (单选题)属于碱性氨基酸的是 A．精氨酸 B．赖氨酸 C．组氨酸 D．A+B E．A+B+C 参考答案：E 4. (单选题)下列有关肽的叙述，错误的是 A．肽是两个以上氨基酸借肽键连接而成的化合物 B．组成肽的氨基酸分子都不完整 C．多肽与蛋白质分子之间无明确的分界线 D．氨基酸一旦生成肽，完全失去其原有的理化性质 E．根据N末端数目，可得知蛋白质的亚基数参考答案：E

5. (单选题)维系蛋白质二级结构稳定的化学键是 A．盐键 B．二硫键 C．肽键 D．疏水键 E．氢键参考答案：E 6. (单选题)蛋白质α-螺旋的特点有 A．多为左手螺旋 B．螺旋方向与长轴垂直 C．氨基酸侧链伸向螺旋外侧 D．肽键平面充分伸展 E．靠盐键维系稳定性参考答案：C 7. (单选题)有关蛋白质三级结构的描述，错误的是 A．具有三级结构的多肽链都有生物学活性 B．亲水基团多位于三级结构的表面

C．三级结构的稳定性由次级键维系 D．三级结构是单体蛋白质或亚基的空间结构 E．三级结构是各个单键旋转自由度受到各种限制的结果参考答案：A 8. (单选题)关于蛋白质亚基的描述，正确的是 A．一条多肽链卷曲成螺旋结构 B．两条以上多肽链卷曲成二级结构 C．两条以上多肽链与辅基结合成蛋白质 D．每个亚基都有各自的三级结构 E．以上都不正确参考答案：D 9. (单选题)蛋白质的空间构象主要取决于 A．肽链氨基酸的序列 B．α-螺旋和β-折叠 C．肽链中的氨基酸侧链 D．肽链中的肽键 E．肽链中的二硫键位置

生物信息学课程设计

生物信息学课程设计报告题目：用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因专业：生物技术班级：11-2 学号：11114040235 姓名：邹炜球指导教师：马超广东石油化工学院生物工程系 2013年 12 月 21 日

摘要生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件（如blast、clustalx2、Primer Premier 5和mega），由于生物信息学这一门课在生物研究领域所起到的作用非常大，所以熟练一些常用的生物信息学软件和数据库是非常有必要的。关键词：NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列（DNA长度为300-1500bp,蛋白质序列为100-500）及相关信息，并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

结构域

结构域科技名词定义中文名称：结构域英文名称：domain;structural domain;motif 其他名称：模体,基序定义1：多肽链内一段类似球形的折叠区。多数结构域具有一定的一级结构和相应功能。所属学科：免疫学（一级学科）；概论（二级学科）；免疫学相关名词（三级学科）定义2：蛋白质或核酸分子中含有的、与特定功能相关的一些连续的或不连续的氨基酸或核苷酸残基。所属学科：生物化学与分子生物学（一级学科）；总论（二级学科）定义3：蛋白质多肽链中可被特定分子识别和具有特定功能的三级结构元件。所属学科：细胞生物学（一级学科）；细胞化学（二级学科）本内容由全国科学技术名词审定委员会审定公布结构域是生物大分子中具有特异结构和独立功能的区域,特别指蛋白质中这样的区域。在球形蛋白中，结构域具有自己特定的四级结构,其功能部依赖于蛋白质分子中的其余部分,但是同一种蛋白质中不同结构域间常可通过不具二级结构的短序列连接起来。蛋白质分子中不同的结构域常由基因的不同外显子所编码。目录编辑本段介绍 (Domain)

在蛋白质三级结构内的独立折叠单元。结构域通常都是几个超二级结构单元的组合结构域。结构域（Structural Domain）是介于二级和三级结构之间的另一种结构层次。所谓结构域是指蛋白质亚基结构中明显分开的紧密球状结构区域，又称为辖区。多肽链首先是在某些区域相邻的氨基酸残基形成有规则的二级结构，然后，又由相邻的二级结构片段集装在一起形成超二级结构，在此基础上多肽链折叠成近似于球状的三级结构。对于较大的蛋白质分子或亚基，多肽链往往由两个或多个在空间上可明显区分的、相对独立的区域性结构缔合而成三级结构，这种相对独立的区域性结构就称为结构域。对于较小的蛋白质分子或亚基来说，结构域和它的三级结构往往是一个意思，也就是说这些蛋白质或亚基是单结构域。结构域自身是紧密装配的，但结构域与结构域之间关系松懈。结构域与结构域之间常常有一段长短不等的肽链相连，形成所谓铰链区。不同蛋白质分子中结构域的数目不同，同一蛋白质分子中的几个结构域彼此相似或很不相同。常见结构域的氨基酸残基数在100～400个之间，最小的结构域只有40～50个氨基酸残基，大的结构域可超过400个氨基酸残基。编辑本段连接状况有些球结构域形蛋白的一条肽链，或以共价键相连的两条或多条肽链在空间结构上可以区分为若干个球状的子结构，其中的每一个球状子结构就被称为一个结构域。

生物信息学在药物设计中的应用

生物信息学在药物设计中的应用 SJ 摘要：生物信息学是在数学、计算机和生命科学的基础上形成的一门新型交叉学科，是指为理解各种数据的生物学意义，运用数学、计算机科学与生物学手段进行生物信息的收集、加工、储存、传播、分析与解析的科学。随着生物信息学的发展，其在药物开发中起着越来越重要的作用。本文简要的综述了生物信息学在药物设计中的应用。关键词：生物信息学；药物设计；靶标 1 生物信息学 1.1生物信息学概述自1990年人类基因组计划正式启动以来，其迅猛发展造成了生物学数据的迅速膨胀，大量多样化生物学数据蕴含着大量生物学规律，这些规律是解决许多生命之谜的关键所在。因此人们对生物学数据搜集、管理、处理、分析、释读能力的要求迅速提升，计算机技术也越来越多地应用于处理人类基因组研究产生的海量数据及相关生物信息。一门由生物学、计算机科学及应用数学等学科交叉形成的新兴学科——生物信息学应运而生。生物信息学利用计算机科学技术，结合生物学、数学、物理学、化学、信息学和系统科学等理论和方法，通过高容量的数据库、繁多的搜索系统、快速的网络通讯和分析工具对生物信息资源进行收集、存储、分析、利用、共享、服务、研究与开发。其研究重点主要体现在基因组学和蛋白组学两方面。具体说，是从核酸和蛋白质序列出发，分析序列中表达的结构与功能的生物信息。目前基因组学的研究出现了几个重心的转移：一是将已知基因的序列与功能联系在一起的功能基因组学研究；二是从作图为基础的基因分离转向以序列为基础的基因分离；三是从研究疾病的起因转向探索发病机理；四是从疾病诊断转向疾病易感性研究。生物芯片(Biochip)的应用将为上述研究提供最基本和必要的信息及依据，将成为基因组信息学研究的主要技术支撑。生物信息学的发展为生命科学的进一步突破及药物研制过程革命性的变革提供了契机。就人类基因组来说，得到序列仅仅是第一步，后一步的工作是所谓后基因组时代的任务，即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息，找出规律。 1.2生物信息学的阶段前基因组时代（20世纪90年代前）：这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具（南京农业大学生命科学学院生命基地111班）摘要：本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具，系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举，并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词：蛋白质；结构预测；跨膜域；保守结构域 1 蛋白质相似性检测蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源，它们通常具有相似的功能；由基因复制而来的序列称为旁系同源，它们通常有不同的功能[1]。因此，推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一常用蛋白质数据库网址可能有更新氨基酸替代模型。进化过程中，一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH，它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH，基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树，这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

以多种蛋白为例阐述蛋白质结构与功能的关系

举例说明蛋白质结构和功能的关系答： 1.蛋白质的一级结构与功能的关系蛋白质的一级机构指：肽链中氨基酸残基（包括二硫键的位置）的排列顺序。一级结构是蛋白质空间机构的基础，包含分子所有的信息，且决定蛋白质高级结构与功能。 ①一级结构的变异与分子病蛋白质一级结构是空间结构的基础，与蛋白质的功能密切相关，一级机构的改变，往往引起蛋白质功能的改变。例如：镰刀形细胞贫血病镰刀形细胞贫血病的血红蛋白（HbS）与正常人的血红蛋白（HbA）相比，发现，两种血红蛋白的差异仅仅来源于一个肽段的位置发生了变化，这个差异肽段是位于β链N端的一个八肽。在这个八肽中，β链N端第6位氨基酸发生了置换，HbA中的带电荷的谷氨酸残基在HbS中被置换成了非极性缬氨酸残基，即蛋白质的一级机构发生了变化。 ②序列的同源性不同生物中执行相同或相似功能的蛋白质称为同源蛋白质，同源蛋白质的一级机构具有相似性，称为序列的同源性。最为典型的例子，例如：细胞色素C（Cyt c） Cyt c是古老的蛋白质，是线粒体电子传递链中的组分，存在于从细菌到人的所有需氧生物中。通过比较Cyt c的序列可以反映不同种属生物的进化关系。亲缘越近的物种，Cyt c中氨基酸残基的差异越小。如人与黑猩猩的Cyt c完全一致，人与绵羊的Cyt c有10个残基不同，与植物之间相差更多。蛋白质的进化反映了生物的进化。 2.蛋白质空间结构与功能的关系天然状态下，蛋白质的多肽链紧密折叠形成蛋白质特定的空间结构，称为蛋白质的天然构象或三维构象。三维构象与蛋白质的功能密切相关。 ①一级结构与高级结构的关系：一级结构决定高级机构，当特定构象存在时，蛋白质表现出生物功能；当特定构象被破坏时，即使一级构象没有发生改变，蛋白质的生物学活性丧失。例如：牛胰核糖核苷酸酶A（RNase A）的变性与复性当RNase A处于天然构象是，具有催化活性；当RNase A处于去折叠状态时，二硫键被还原不具有催化活性；当RNase A恢复天然构象时，二硫键重新形成，活性恢复。 ②变构效应变构效应：是寡聚蛋白质分子中亚基之间存在相互作用，这种相互作用通过亚基构象的改变来实现。蛋白质在执行功能是时，构象发生一定变化。例如：肌红蛋白、血红蛋白与氧的结合两种蛋白质有很多相同之处，结构相似表现出相似功能。这两钟蛋白质都含有血红素辅基，都能与氧进行可逆结合，因此存在着氧合与脱氧的两种结构形式。但是肌红蛋白几乎在任何氧分压情况下都保持对氧分子的高亲和性。血红蛋白则不同，在氧分压较高时，血红蛋白几乎被氧完全饱和；而在氧分压较低时，血红蛋白与氧的亲和力降低，释放出携带的氧并转移给肌红蛋白。

生物信息学在医学领域的应用研究现状

生物信息学在医学领域的应用研究现状摘要生物信息学是研究生物信息处理(采集、管理和分析应用),并从中提取生物学新知识的一门科学,它连接生物数据和医学科学研究。生物信息数据库几乎覆盖了生命科学的各个领域，截止至2010年，总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。关键词生物信息学，医学，应用前言据统计,生物学信息正以每14个月翻一倍的速度增长。随着基因组及蛋白质序列数据库的快速增长,以及从这些序列中获取最大信息的需求,生物信息学(bioinformatics)作为一门独立学科应运而生。简言之,生物信息学就是利用计算和分析工具去收集、解释生物学数据的学科。生物信息学是一门综合学科,是计算机科学、数学、物理、生物学的结合。它对于管理现代生物学和医学数据具有重大意义,其研究成果将对人类社会和经济产生巨大推动作用。生物信息学的基础是各种数据库的建立和分析工具的发展。数据库迄今为止,生物学数据库总数已达500个以上。归纳起来可分为4大类:即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库,以及以上述3类数据库和文献资料为基础构建的二级数据库。生物信息学在临床医学上的应用 1.疾病相关基因的发现:很多疾病的发生与基因突变或基因多态性有关。发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。目前发现新基因的主要方法有多种:(1)基因的电脑克隆:所谓基因的“电脑克隆”, 就是以计算机和互联网为手段,发展新算法,对公用、商用或自有数据库中存储的表达序列标签(express sequence tags,EST)进行修正、聚类、拼接和组装, 获得完整的基因序列, 以期发现新基因。(2)通过多序列比对从基因组DNA 序列中预测新基因[1]:从基因组序列预测新基因,本质上是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。(3)发现单核苷酸多态性[2]:现在普遍认为SNPs研究是人类基因组计划走向应用的重要步骤。这主要是因为SNPs将提供一个强有力的工具,用于高危群体的发

蛋白质的功能域、结构及其药物设计----6

第六章蛋白质的功能域、结构及其药物设计随着人类基因组全序列测定的完成，预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术，也可以基于蛋白质技术，即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的，而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应，均是一个整体概念，但是两者又有根本的不同：一个有机体只有一个确定的基因组，组成该有机体的所有不同细胞都共享有一个基因组；但是，基因组内各个基因表达的条件、时间和部位等不同，因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此，蛋白质组又是一个动态的概念。由于以上原因，再加上由于基因剪接，蛋白质翻译后修饰和蛋白质剪接，基因遗传信息的表达规律更趋复杂，不再是经典的一个基因一个蛋白的对应关系，而是一个基因可以表达的蛋白质数目大于一。由此可见，蛋白质组研究是一项复杂而艰巨的任务。蛋白质结构与功能的研究已有相当长的历史，由于其复杂性，对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中，如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征，得出相应参数(P а,P β 和P t )并用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。第一节蛋白质功能预测一、根据序列预测功能的一般过程如果序列重叠群(contig)包含有蛋白质编码区，则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得，如疏水性，它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是，总的来说，我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻，比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析： ①比较未知蛋白序列与已知蛋白质序列的相似性； ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线，所得出的分析结果并不会总是相一致。一般来说，数据库相似性搜索获得的结果最为可靠，而来自PROSITE的结果相对不可靠。

高考生物必备知识点：蛋白质结构与功能的关系

高考生物必备知识点：蛋白质结构与功能的关系小编给各位考生整理了高考生物必备知识点：蛋白质结构与功能的关系技巧，希望对大家有所帮助。更多的资讯请持续关注。高考复习正在进行中，高考生物想在原有的基础上提分，这就要求考生要掌握一定的知识量，能随机应变，灵活运用已掌握的知识。以下是小编对《高考生物必备知识点：蛋白质结构与功能的关系技巧》进行的总结，供考生参考。常见考法：在平常测试中，蛋白质知识占有较大比例，可以以选择题或简答题的形式出现。通常考查氨基酸结构的判断、氨基酸脱水缩合过程中的计算问题、蛋白质的结构和功能等相关问题，出题形式灵活，难度较大。在高考中，从近几年生物试题看，有关蛋白质的结构与功能一直是高考命题的热点，题目多以选择题形式考查。除上海高考题外，其他地区试题较少涉及蛋白质的有关计算。结合蛋白质的合成、蛋白质结构多样性及具体蛋白质类物质的功能是近几年各地试题命题的新动向。高考生物必备知识点：蛋白质结构与功能的关系蛋白质一级结构又称化学结构(primary structure)，是指氨基酸在肽键中的排列顺序和二硫键的位置，肽链中氨基酸间以肽键为连接键。蛋白质的一级结构是最基本的结构，它决定了蛋白质的二级结构和三级结构，其三维结构所需的全

部信息都贮存于氨基酸的顺序之中。二级结构(secondary structure)是指多肽链中彼此靠近的氨基酸残基之间由于氢键星湖作用而形成的空间结构。三级结构(tertiary structure)是指多肽链在二级结构的基础上，进一步折叠，盘曲而形成特定的球状分子结构。四级结构(quaternary structure)是由两条或者两条以上具有三级结构的多肽链聚合而成的具有特定三维结构的蛋白质构想。不同的蛋白质，由于结构不同而具有不同的生物学功能。蛋白质的生物学功能是蛋白质分子的天然构象所具有的性质，功能与结构密切相关。高考生物必备知识点：蛋白质相关概念 1、氨基酸：氨基酸的结构是这节的一个难点，因为这个牵涉到有机化合物结构式的书写，而这些内容在化学方面还没有介绍，因此这里要注意听老师认真讲解。氨基酸的种类很多，但构成生物体蛋白质的氨基酸只有20种，这20种都有个共同的特定，就是都至少有一个氨基和一个羧基，并且氨基和羧基都连在同一个碳原子上，这个碳原子还连接一个氢原子和一个侧链基团(R基)。说明一点，大家只需要记住氨基酸的结构通式，会判断就可以，具体氨基酸的结构式不需要掌握。 2、氨基酸的脱水缩合：这个也是一个难点。脱水缩合是氨

蛋白质的结构和功能的关系

蛋白质结构与功能的关系摘要：蛋白质特定的功能都是由其特定的构象所决定的，各种蛋白质特定的构象又与其一级结构密切相关。天然蛋白质的构象一旦发生变化，必然会影响到它的生物活性。由于蛋白质的构象的变化引起蛋白质功能变化，可能导致蛋白质构象紊乱症，当然也能引起生物体对环境的适应性增强！现而今关于蛋白质功能研究还有待发展，一门新兴学科正在发展，血清蛋白组学，生物信息学等！本文仅就蛋白质结构与其功能关系进行粗略阐述。关键词：蛋白质分子一级结构、空间结构、折叠/功能关系、蛋白质构象紊乱症；分子伴侣正文： 1、蛋白质分子一级结构和功能的关系蛋白质分子中关键活性部位氨基酸残基的改变，会影响其生理功能，甚至造成分子病(molecular disease)。例如镰状细胞贫血，就是由于血红蛋白分子中两个β亚基第6位正常的谷氨酸变异成了缬氨酸，从酸性氨基酸换成了中性支链氨基酸，降低了血红蛋白在红细胞中的溶解度，使它在红细胞中随血流至氧分压低的外周毛细血管时，容易凝聚并沉淀析出，从而造成红细胞破裂溶血和运氧功能的低下。另一方面，在蛋白质结构和功能关系中，一些非关键部位氨基酸残基的改变或缺失，则不会影响蛋白质的生物活性。例如人、猪、牛、羊等哺乳动物胰岛素分子A链中8、9、10位和B链30位的氨基酸残基各不相同，有种族差异，但这并不影响它们都具有降低生物体血糖浓度的共同生理功能。蛋白质一级结构与功能间的关系十分复杂。不同生物中具有相似生理功能的蛋白质或同一种生物体内具有相似功能的蛋白质，其一级结构往往相似，但也有时可相差很大。如催化DNA 复制的DNA聚合酶，细菌的和小鼠的就相差很大，具有明显的种族差异，可见生命现象十分复杂多样。 2、蛋白质分子空间结构和功能的关系蛋白质分子空间结构和其性质及生理功能的关系也十分密切。不同的蛋白质，正因为具有不同的空间结构，因此具有不同的理化性质和生理功能。如指甲和毛发中的角蛋白，分子中含有大量的α-螺旋二级结构，因此性质稳定坚韧又富有弹性，这是和角蛋白的保护功能分不开的;而胶原蛋白的三股π螺旋平行再几股拧成缆绳样胶原微纤维结构，使其性质稳定而具有强大的抗张力作用又如细胞质膜上一些蛋白质是离子通道，就是因为在其多肽链中的一些α-螺旋或β-折叠二级结构中，一侧多由亲水性氨基酸组成，而另一侧却多由疏水性氨基酸组成，因此是具有“两亲性”(amphipathic)的特点，几段α-螺旋或β-折叠的亲水侧之间就构成了离子通道，而其疏水侧，即通过疏水键将离子通道蛋白质固定在细胞质膜上。载脂蛋白也具有两亲性，既能与血浆中脂类结合，又使之溶解在血液中进行脂类的运输。 3、折叠/功能关系体内各种蛋白质都有特殊的生理功能，这与空间构象有着密切的关系。肌红蛋门和血红蛋白是阐述空间结构与功能关系的典型例子。肌红蛋门(Mb))和血红蛋白(Hb)都是含血红素辅基的结合蛋白质。Mb有一条肽链，经盘曲折折叠形成三级结构，整条肽链由A~H8段α螺旋盘曲折叠成为球状，疏水氨基酸侧链在分子内部，亲水氨基酸侧链在分子外部，形成亲水的球状蛋白，血红素辅基位于Mb分子内部的袋状空穴中。Hb有四条肽链，两条β链也有与Mb 相似的A~H8段α螺旋，有两条α链只有7段α螺旋。Hb与Mb的折叠方式相似，也都能与氧进行可逆的结合。Hb的一个亚基与氧结合后可引起构象变化，是另一个亚基更易于与氧结合，这种带氧的亚基协助不带氧的亚基去结合氧的现象称为协同效应。氧与Hb结合后可