当前位置:文档之家› 从头预测氨基酸相互作用及其在蛋白质三维结构建模中的应用研究

从头预测氨基酸相互作用及其在蛋白质三维结构建模中的应用研究

上海交通大学硕士论文 目 录

目录

摘 要 .............................................................................................................................................. I ABSTRACT ................................................................................................................................ III 第一章 绪论 .. (1)

1.1 研究背景和意义 (1)

1.2 蛋白质结构预测的现状 (2)

1.2.1 氨基酸相互作用的研究 (3)

1.2.2 二硫键连接模式的研究 (4)

1.3 研究内容与创新点 (6)

1.4 本文组织结构 (7)

第二章 背景知识介绍 (8)

2.1 蛋白质概述 (8)

2.2 氨基酸相互作用 (9)

2.2.1 相互作用的定义 (9)

2.2.2 二硫键连接模式 (10)

2.2.3 相互作用的应用 (11)

2.3 多序列比对 (11)

2.4 相关数据库 (13)

2.5 机器学习与数据挖掘 (14)

2.5.1 支持向量机 (14)

2.5.2 证据理论优化的K近邻 (16)

2.5.3 广义主成分分析 (17)

2.6 模型评估方法 (18)

2.6.1 交叉验证 (18)

2.6.2 接受者操作特性曲线 (18)

第三章 基于集成学习法的TMH之间氨基酸相互作用预测 (20)

3.1 背景及动机 (20)

3.2 材料和方法 (21)

3.2.1 数据集 (21)

3.2.2 评价指标 (21)

3.2.3 特征提取 (22)

3.2.4 特征融合 (23)

3.2.5 预测模型 (24)

3.3 结果和讨论 (26)

3.3.1 共变异分析法 (26)

3.3.2 机器学习法 (27)

3.3.3 共变异分析法和机器学习法的融合 (30)

上海交通大学硕士论文 目录

3.3.4 与已有方法的比较 (34)

3.3.5 GPCR三维结构建模 (36)

3.3.6 案例分析 (39)

3.3.7 讨论 (41)

3.4 在线网站 (44)

3.5 本章小结 (45)

第四章 基于SVR和序列比对法的二硫键连接模式预测 (46)

4.1 背景及动机 (46)

4.2 材料和方法 (47)

4.2.1 数据集 (47)

4.2.2 连接模式 (48)

4.2.3 机器学习法 (48)

4.2.4 序列比对法 (50)

4.2.5 预测模型 (50)

4.2.6 评价指标 (51)

4.3 结果与分析 (51)

4.3.1 结构特征的影响 (51)

4.3.2 序列比对法的评估 (53)

4.3.3 机器学习法与序列比对法的融合 (54)

4.3.4 与已有方法的比较 (54)

4.3.5 PDBCYS数据集上的验证 (55)

4.3.6 连接模式在三维结构建模上的应用 (56)

4.3.7 在线网站的测试 (57)

4.4 本章小结 (58)

第五章 总结与展望 (59)

5.1 总结 (59)

5.2 展望 (59)

附录A 缩写对照表 (61)

参考文献 (62)

致 谢 (70)

攻读硕士学位期间已发表或录用的论文 (71)

上海交通大学硕士论文 第一章 绪论

第一章绪论

1.1研究背景和意义

近些年来,人类基因组计划取得了突破性进展,与此同时,海量的生物数据也应时而生。自2001年以来,随着大规模测序工作的完成,标志着生命科学已进入全新的后基因组阶段。如何从海量的生物数据中提取出有用的信息,并做进一步的分析和解释,从中揭示出生命活动的基本奥秘,已经成为当前的一个前沿领域,也因此诞生了生物信息学这门综合性的学科。

生物信息学[1, 2]作为一门生物学和信息科学交叉而成的新学科,它从原始的序列出发,通过运用生物学、信息技术和计算机科学等学科的理论和方法,对纷繁复杂的生物数据进行处理和加工,分析出序列中所表达的结构和功能等生物信息,进而揭示数据中蕴含着的生命活动的本质。其研究内容主要涉及基因组信息学、蛋白质结构与功能预测以及药物设计三个方面。其中,蛋白质结构与功能预测是当前生物信息学研究的重要方向。在得知蛋白质的空间结构后,即可根据特定蛋白质的功能进行必要的药物设计。

蛋白质作为遗传信息的表现者,是细胞中最具功能的生物大分子,更是生命活动的物质基础,它与生命及各种生命活动紧密联系在一起,没有蛋白质就没有生命。生物体的每个细胞及其重要组成部分中都含有蛋白质,其种类繁多,功能各异,但基本上都是由20多种氨基酸组合而成,并在生物体内不断地代谢与更新。蛋白质参与基因表达的调节,还有各种生命活动的过程,例如,电子传递、神经传递、学习和记忆等。此外,它也是生物体中生化反应的催化酶,很多重要的激素也都是蛋白质。因此,对蛋白质的结构和功能[3, 4]进行全面深入地分析和研究,将有助于更好地了解生命活动的过程以及为药物设计提供了有利条件。

随着DNA(Deoxyribonucleic Acid)自动测序技术的普及,蛋白质序列的数量呈指数级增长。然而,已知蛋白质结构的数量却增长缓慢,并且已有序列的数量和已知结构的数量之间的差距在不断地变大。一般而言,蛋白质结构测定的途径主要有实验方法和理论预测。目前比较有效的实验方法有X射线晶体学和多维核磁共振法,

第 1 页

相关主题
相关文档 最新文档