当前位置：文档之家› 生物信息学与组学

生物信息学与组学

Zujia.W

摘要：

随着新一代测序技术、蛋白质谱技术等高通量技术的快速发展,生命科学领域进入了“后基因组时代”，进入了以海量多元组学数据为特征的大数据时代。组学大数据在研究基因功能、疾病机制、精准医疗等方面具有重要意义。在疾病研究领域中，跨组学研究是一个明确的发展趋势。借助生物信息学分析方法进行多组学整合研究, 能更加系统地阐释疾病的发生及发展机理, 为疾病的诊断治疗提供强有力的工具。

关键词：组学基因组学转录组学蛋白质组学代谢组学生物信息学

Abstract：

With the rapid development of new-generationhigh-throughput technologies, including next-generation sequencing technology and mass spectrometry method，the field of life sciences has entered the "post-genomic era",a large data age characterized by massive multivariate https://www.doczj.com/doc/bf10602941.html,rge data of Omics has set great significance in the study of gene function, disease mechanisms, precision medical and so on.In the field of disease research,cross-omics research is a clear

development trend in future.With the help of bioinformatics analysis method and multi-omics integration,researchers can explain the occurrence and development of diseases more systematically, providing powerful tools for the diseases diagnosis and treatment .

Key words:Omics Genomics Transcriptomics Proteomics Metabolomics Bioinformatics

在后基因组时代, 系统生物学研究逐渐成为人们关注的焦点。系统生物学研究的目的是根据细胞内基因、蛋白质、代谢物以及细胞器等组分间的时空相互关系构建生物网络,了解生物行为。

组学(Omics)概念出现于21世纪初期，随着生物技术的不断更新与蓬勃发展,如今已拓展到不同的研究领域。组学主要包括基因组学(Genomics)，蛋白组学(Proteinomics)，代谢组学(Metabolomics)，转录组学(transcriptomics)，脂类组学(lipidomics)，免疫组学(Immunomics)，糖组学(glycomics )和 RNA组学(RNomics)学等。

在本文中，主要介绍基因组学，转录组学，蛋白组学以及代谢组学的研究进展和应用。帮助读者了解组学研究的重要意义，认识到熟悉组学数据库对于生物信息学研究工作的开展至关重要。

基因组学(Genomics)

基因组是人类疾病研究的核心与基础, 借助高通量基因组测序技术, 研究者可以更加快速准确的找到与疾病相关的基因组序列与结构的异常变化,从而确定致病基因或易感位点。目前利用第二代测序研究疾病在DNA 水平的技术策略主要有外显子组测序、全基因组重测序和目标基因组区域测序等[1]。

一．药物基因组学

根据世界卫生组织调查发现药物安全性问题是住院病人致死最重要的原因之一。药物反应个体差异所致不良反应已成为危害人类健康的重要公共卫生问题。现代医学和药学研究已经表明, 遗传因素是造成药物反应个体差异的主要原因[2]。

药物基因组学(pharmacogenomic)研究的一个长期目标是了解遗传差异(基因多态性)导致不同个体间药物代谢能力的差异, 以及药物在不同个体间作用效果及副作用的差异, 从而实现根据个体情况进行个体化用药。

应用药物基因组学技术和遗传药理学的知识，指导新药物的研发，可以减少对用药者的毒害副作用，节省高昂的临床研究成本, 缩短上市所需时间及保证上市后的安全性和有效性[2]。

二．肿瘤基因组学

大量的研究资料表明，肿瘤的发生、发展是一个多基因变异累积的过程。人们对肿瘤发病机制的研究也慢慢地从鉴定癌基因发展到肿瘤基因组学研究[3]。

肿瘤基因组学就是通过大规模的测序来建立肿瘤基因组图谱，从而阐明各类肿瘤的基因组变异规律及其在肿瘤发生发展过程中的作用。

肿瘤细胞具有高度特异性，同一种肿瘤在不同患者具有不同的基因突变谱，在同一肿瘤的不同部位、甚至不同的细胞群都有不同的基因突变谱。因此，利用肿瘤基因组学技术去发现更多的肿瘤驱动基因，建立相关的分子诊断技术，并开发出相应的靶向药物是目前亟待解决的问题，也是未来肿瘤研究的主要方向[4]。

随着基因组学技术的不断发展，人们将会对基因变异与疾病之间关系有更深入、更系统的理解，并将其高效地转化到临床应用中,最终造福于人类的健康。

转录组学(transcriptomics)

转录组是指某一生物或细胞所有基因表达的RNA。转录组学是一门对某一生物或细胞所有基因表达的RNA ( 如m RNA)进行全面分析的科学。从广义上讲，转录组的研究对象为特定细胞在某一生理状态下所转录加工的RNA分子，包括信使RNA、核糖体RNA、转运RNA及非编码。RNA等功能单元[5]。

近年来,第二代测序技术凭借高准确性、高通量、高灵敏度和低运行成本等优势逐渐成为RNA水平研究疾病的重要手段。目前, 基于第二代测序技术的RNA 水平研究疾病的方法包括：转录组

测序、数字基因表达谱测序和小RNA 测序等。

转录组是连接基因组遗传信息与生物功能的必然纽带, 转录组研究已经成为揭示疾病的基因突变规律、疾病发生发展的重要机制、发现致病基因调控的关键靶点等领域的最佳研究手段, 广泛应用于疾病预防、诊断、个性化治疗和预后等领域。

蛋白组学(Proteinomics)

蛋白质作为生命体中最终发挥基因功能的活性大分子,其多样性决定了细胞功能的多态性, 在众多生物功能调控中, 例如疾病的发生和发展过程, 发挥着举足轻重的作用。

蛋白质组包括某特定时间内一种细胞乃至一种生物所表达的全部蛋白质，不仅包含直接从基因序列上翻译的，也包括剪接，翻译后的修饰及两者结合的蛋白与蛋白相互作用。

蛋白质组学是研究生物体、组织、细胞中所有蛋白质的组成、结构、功能及其蛋白相互作用的一门科学。其技术主要包括质谱技术、蛋白质芯片技术、双向电泳、表面等离子体共振技术、蛋白质复合物纯化技术和生物信息学分析等，近年来飞行质谱联用技术，具有大规模、高通量和系统化等特点及优势，在蛋白质组学研究中发挥着重要作用[6]。

在恶性肿瘤研究中，蛋白质组学技术发挥了重要的作用。一方面，能筛选出相关的血清蛋白标志物，并建立相关疾病的诊断模型，提供一种全新的血清学诊断方法；另一方面，可通过这些特异性标

志物，为易感人群的筛查、早期诊断、治疗选择和随访提供参考依据[7]。

在遗传性疾病研究中，蛋白质组学具有良好的应用前景。可通过蛋白质组学的技术，深入剖析这些遗传病的病理生理机制。在一定程度上，能增加对这些疾病的认识，也为疾病的预防和诊疗提供强有力的依据，寻找诊疗遗传病的生物标记物和关键的药物靶点[8]。

代谢组学(Metabolomics)

代谢产物是基因和蛋白调控的下游产物也是最终产物，主要是一些参与生物体新陈代谢、维持生物体正常功能和生长发育的小分子化合物。代谢组学是通过考察生物体系受到刺激或扰动后，其代谢产物的变化或其随时间的变化，来研宄生物体系的一门科学。代谢处于生命活动调控的终端，因此代谢组学比基因组学、蛋白质组学更接近于表型[9]。

代谢组学研究的目的是定量分析一个生物系统内所有代谢物的含量。代谢组学分析可以指示细胞、组织或器官的生化状态, 协助阐释新基因或未知功能基因的功能[10],并且可以揭示生物各代谢网络间的关联性, 帮助人们更系统地认识生物体。

代谢组学通过高分辨的质谱、核磁等技术，对机体体液或组织中代谢物进行高通量分析，并结合多元统计学，模式识别模型筛选与疾病相关且具有显著差异的代谢标志物，为疾病的诊治提供科学依据。

生物体是一个完整的系统，生物体液、细胞和组织中的代谢物处于一个动态平衡的状态，当疾病出现时，病理紊乱就会引起一些内源性代谢物的种类及浓度等发生改变。这些变化都可以应用代谢组学技术来进行全面分析，从而为临床的诊疗提供依据。目前，代谢组学应用于疾病领域的研究已非常广泛，涉及临床诊断、治疗监测、病理研究、器官移植等多个方面[11]。

多组学技术平台的快速更新为转化医学体系的发展、完善提供了多层次的高通量组学数据研究和获取的策略，更为大数据医学提供了有力的工具。

基因组学、转录组学、蛋白组学和代谢组学等多项组学综合技术平台的构建，多组学信息库的发展与完善，使人们可以对机体病理状态下不同层次的调控因子的改变进行深层发掘和解析，如疾病基因的查找，生物标志物、给药靶点的筛选，信号通路的分析等，为疾病预防、诊断、治疗等提供了更多必要的途径和重要的手段。

在大数据时代，如何利用生物信息学分析方法，综合整理浩瀚地组学信息，是我们快速有效推进研究进展的首要问题。

参考文献

[1]杨旭, 焦睿, 杨琳,等. 基于新一代高通量技术的人类疾病组学研究策略[J]. 遗传, 2011, 33(8):829-846.

[2] 张伟, 周宏灏. 药物基因组学和个体化医学的转化研究进展[J]. 药学学报, 2011(1):1-5.

[3] 胡学达, 杨焕明, 赫捷,等. 肿瘤基因组学与全球肿瘤基因组计划[J]. 科学通报, 2015(9):792-804.

[4] 桂耀庭. 肿瘤基因组学与精准医学[J]. 医药导报, 2016, 35(9):911-914.

[5] SULTAN M, SCHULZ M H, RICHARD H, et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. Science, 2008,321(5891):956-960

[6]李玉香, 戎浩, 胡群英,等. 蛋白质组学在医学研究中的应用与进展[J]. 中国组织工程研究, 2016, 20(33):4985-4992.

[7] 马袁君, 程震龙, 孙野青. 生物信息学及其在蛋白质组学中的应用[J]. 生物信息学, 2008, 6(1):38-39.

[8] 盛铭浩. 生物信息学在蛋白质组学上的应用[J]. 科学与财富, 2015(22):16-16.

[9] 杨必成, 王枫, 刘淮,等. 代谢组学与精准医学[C]// 江西省中西医结合学会检验医学专业委员会成立大会暨第一次中西医结合检验医学学术交流会资料汇编. 2015.

[10] 李灏, 姜颖, 贺福初. 代谢组学技术及其在临床研究中的应用[J]. 遗传, 2008, 30(4):389-399.

[11] 孙立业, 颜贤忠. 代谢组学技术在疾病研究中的应用进展[J]. 医学综述, 2012, 18(7):961-963.

[12]金利泰. 组学在转化医学中的应用进展[J]. 生物产业技术, 2016(6).

生物信息学

1.1简述DNA双螺旋结构模型要点 a.DNA两条链逆平行、围绕同中心轴右手螺旋的双链结构，双螺旋结构的直径为2.0nm，螺距为3.4nm。 b.脱氧核糖和磷酸基团构成亲水性骨架位于双螺旋结构的外侧，疏水碱基位于螺旋内侧。每周约10个碱基。 c.两条链借助彼此之间的的氢键结合在一起。AT配对有两个氢键GC配对有三个氢键。每两个碱基对之间的相对旋转角度为36° d.双螺旋结构的表面形成了一个大沟(major groove)和一个小沟(minor groove)。 1.2 名词解释：DNA的变性与复性；DNA分子杂交 DNA的变性：在某些理化因素作用下，DNA双链解开成两条单链的过程。DNA变性的本质是双链间氢键的断裂。 DNA的复性：当变性条件缓慢地除去后，两条解离的互补链可重新配对，恢复原来的双螺旋结构，这一现象称为DNA复性(renaturation) 。 DNA分子杂交：热变性的DNA在缓慢冷却过程中，具有碱基序列互补的不同DNA之间或DNA与RNA之间形成杂环双链的现象称为核酸分子杂交。 1.3 简述核酸分子杂交技术不同种类的DNA单链分子或RNA分子放在同一溶液中，只要两种单链分子之间存在着一定程度的碱基配对关系，在适宜的条件可以在不同的分子间形成杂化双链(heteroduplex)。这种杂化双链可以在不同的DNA与DNA之间形成，也可以在DNA和RNA分子间或者RNA与RNA 分子间形成。这种现象称为核酸分子杂交 1.4生物体内氨基酸有180多种,组成蛋白质的氨基酸只有（20）种,都是（α-氨基酸）。 1.5 写出氨基酸的结构通式 1.6名词解释：氨基酸的等电点氨基酸的等电点：调节氨基酸溶液PH值,使氨基酸溶液中的氨基和羧基的解离度完全相等,即氨基酸所带静电荷为0,在电场中既不向阴极移动,也不向阳极移动,此时,氨基酸溶液的PH 值称为该氨基酸的等电点,以符号PI表示。 2.1 Sanger通过氨基酸与（2,4-二硝基氟苯(DNFB)）反应测定了胰岛素的序列。 2.2 Edman反应是指用（苯异硫氰酸酯（PITC））与氨基酸的氨基发生反应来测定多肽序列的。 2.3名词解释：肽键与肽平面肽键：氨基酸与氨基酸之间脱水缩合之后形成肽链其中一个氨基酸上的氨基与另一个氨基酸上的羟基脱水缩合后形成的就叫肽键即-CO-NH-. 肽平面：与肽键相关的6个原子共处于一个平面，称为酰胺平面或肽平面。肽键具有一定程度的双键性质，参与肽键的六个原子C、H、O、N、Cα1、Cα2不能自由转动，位于同一平面，此平面就是肽平面，也叫酰胺平面。 2.4详细叙述蛋白质的分子结构。一级结构：组成蛋白质多肽链的线性氨基酸序列。二级结构：依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构，主要为α螺旋和β折叠。三级结构：通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构。四级结构：用于描述由不同多肽链（亚基）间相互作用形成具有功能的蛋白质复合物分子。 2.5 蛋白质二级结构的有哪几种？

生物信息学复习题及答案

生物信息学复习题名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。 Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。值：得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法,是序列相似性分析的基础，其不同的选择将会出现不同的分析结果。 10．空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。：美国国家生物技术信息学中心，属于美国国立医学图书馆的一部分，具有BLAST, Entrez ,GenBank等工具，还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式：是将DNA或者蛋白质序列表示为一个带有大于号（>）开始的核苷酸或者氨基酸序列的新文件，其中大于号后可以跟上序列的相关信息，其他无特殊要求。 13genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释，主要包含生物功能或数据库信息；第三部分是feature，对序列的注释；第四部分是序列本身，以“统发生树（Phylogenetic tree ）是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。是用来研究物种进化与多样性的基础，是相近物种相关生物学数据的来源。17.基因树与物种树：物种树反映一组物种进化历程的系统树，其中每一个内部节点就代表一个物种形成的过程，而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树，而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

基因组学与生物信息学教案

《基因组学与生物信息学》教案授课专业：生物学大类各专业课程名称：基因组学与生物信息学主讲教师：夏庆友程道军赵萍徐汉福

课程说明一、课程名称：基因组学与生物信息学二、总课时数：36学时（理论27学时实验9学时）三、先修课程：遗传学、分子生物学、基因工程四、使用教材：杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社，2002. 五、教学参考书： T.A.布朗著，袁建刚译著，基因组(2rd版)，北京：科学出版社,2006. 沈桂芳，丁仁瑞，走向后基因组时代的分子生物学，杭州：浙江教育出版社，2005. 罗静初译，生物信息学概论，北京：北京大学出版社，2002. 六、考核方式：考查七、教案编写说明：教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标，以教学大纲为依据，在熟悉教材、了解学生的基础上，结合教学实践经验，提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课（指同一主题连续1~2节课）设计编写。教案编写说明如下： 1、编号：按施教的顺序标明序号。 2、教学课型表示所授课程的类型，请在相应课型栏内选择打“√”。 3、题目：标明章、节或主题。 4、教学内容：是授课的核心。将授课的内容按逻辑层次，有序设计编排，必要时标以“*”、“#”“？” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法，如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、标本、挂图、音像等教学工具。 6、讨论、思考题和作业：提出若干问题以供讨论，或作为课后复习时思考，亦可要求学生作为作业来完成，以供考核之用。 7、参考书目：列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本，这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。因此，我们需要专门知识来处理生物大数据。因此，需要云计算和大数据技术（例如Apache Hadoop项目）的概念来存储，处理和分析这些数据。因为，这些技术提供分布式和并行化的数据处理，并且能够有效地分析甚至PB级的数据集。然而，也有一些缺点，可能包括需要更大的时间来传输数据和更小的网络带宽，主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

生物信息学现状与展望

研究生课程考试卷学号、姓名： j20112001 苗天锦年级、专业：2011生物化学与分子生物学培养层次：硕士课程名称：生物信息学授课学时学分： 32学时 2学分考试成绩：授课或主讲教师签字：

生物信息学现状与展望摘要：生物信息学是一门新兴学科，起步于20世纪90年代，至今已进入"后基因组时代"，本文对生物信息学的产生背景及其研究现状等方面进行了综述，并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。关键词：生物信息学；生物信息学背景；发展前景一、生物信息学概述 1.生物信息学发展历史随着生物科学技术的迅猛发展，生物信息数据资源的增长呈现爆炸之势，同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能，为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用，一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构（双螺旋）。Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA 聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。Meselson与Stahl （1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai（1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来，人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作，人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日，被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图，预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

基因组生物信息学 - 复旦大学研究生院

基因组生物信息学 Introduction to Genomics and Bioinformatics 基因组生物信息学是在人类基因组计划完成之后出现的热点研究领域。本课程是一门创新的课程，通过理论学习与实际操作演示介绍基因组和生物信息学中前沿与常用的知识和工具，使得学生在理论与技能两方面得到培养。课程内容新颖，紧跟国际最新研究进展与热点，结合应用实例介绍实用的技能。课程开设目的是让选课学生了解基因组生物信息学的基本概念、掌握基本工具；认识基因组学与日常生活的密切关系，和基因组技术个体化对社会和人们生活方式的深远影响；同时培养兴趣，为该领域吸引跨学科人才。课程内容包括：基因组学与生物信息学简介，基因组基本理论，人类基因组计划的历史与未来，基因组测序方法与进展，基因组序列注释方法，转录组学简介，比较基因组与进化基因组学简介等。教学团队的几位教师都是这一领域的专家，其中赵国屏院士是微生物基因组学方面的专家，曾经在抗击SARS的研究中作出突出贡献；周雁教授主持与参与了多个大型基因组研究计划，包括人、水稻、血吸虫等，在基因组与生物信息学方面有着丰富的理论与实践经验。赵国屏，教授，中科院院士复旦大学 gpzhao@https://www.doczj.com/doc/bf10602941.html, 现任国家人类基因组南方研究中心执行主任，生物芯片上海国家工程中心主任，复旦大学微生物学与微生物工程系主任，中国微生物学会理事长。主要研究方向为微生物基因组学和生物信息学，进化，代谢调节，合成生物学。周雁，副教授复旦大学 zhouy@https://www.doczj.com/doc/bf10602941.html, 复旦大学生命科学学院副教授，上海市生物信息学会理事。主要研究方向为病源与宿主在基因组和表达组水平的相互作用，及在此过程中相关基因家族及其功能的进化规律。教师风采

基因组学与生物信息学课后作业

基因组学与生物信息学课后作业2016/2/23 名词解释 1 基因组：基因组是指生物体内遗传信息的集合，是某个特定物种细胞内全部DNA分子的总和 2 基因组学：是一门新兴的学科，是在全基因组范围内研究基因的结构、功能、组成及进化的科学，包括多个分支学科 3 C值：指一个单倍体基因组中DNA的总和，一个特定的物种具有其特征性的C值 4 基因家族：来自于一个共同的祖先基因，由基因重复及其突变产生。序列相似，功能相近。 5 假基因：来源于功能基因，但以失去活性的DNA序列，有沉默的假基因，也有可转录的假基因 6 人类基因组计划：旨在为30多亿碱基对构成的人类基因组精确测序，发现所有人类基因并搞清其在染色体上的位置，破译人类全部遗传信息问答题

简述真核生物染色体与原核生物染色体的差别。答：真核生物基因组都由分散的长链线性DNA分子组成，每个DNA分子都与蛋白质结合组成染色体；原核生物基因组有2种独立结构的遗传物质，一种为拟核里的染色质，一种为质粒另外，真核生物基因组含大量非编码序列（高度重复序列，多位于着丝粒、端粒）、断裂基因，而原核生物大部分基因都可以编码名词解释突变:基因组小区段范围内DNA分子发生的突然的、可遗传的变异现象。重组:指基因组中大范围区段发生重新组合。同源重组:指发生在非姐妹染色单体（sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合转座:一段DNA片段或其拷贝从染色体的一个位置转移到另一位置，并在插入位点两侧产生一对短的正向重复序列基因重复:含有基因的DNA片段发生重复，可能因同源重组作用出错而发生，或是因为反转录转座与整个染色体发生重复所导致比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及其内在联系的一门新兴交叉学科

生物信息学复习题及答案

一、名词解释： 1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37值：衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）

生物信息学考试试卷

一、名词解释(每小题4分,共20分) 1、生物信息学广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义：生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系 7、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 8、基因识别基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA 序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。 9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用生物信息学（bioinformaLics）是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象，以数学、信息学、计算机科学为主要手段，对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析，从中获得基因的编码、凋控、遗传、突变等知识；研究核酸和蛋白质等生物大分子的结构、功能及其相互关系；研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。从生物信息学研究的具体内容上看，生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。针对蛋白质序列的分析，可以预测出蛋白质的许多物理特性，包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测，三维结构预测等。生物信息学中的主要方法有：序列比对，结构比对，蛋白质结构的预测，构造分子进化树，聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法，查询生物分子信息数据库，取得相应的序列数据，通过序列比对，找出特征序列，作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面，即探针的设计和探针在芯片上的布局，必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理，给出实验结果，并运用生物信息学方法对实验进行可靠性分析，得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中，将基因芯片数据与公共数据库进行链接，利用数据挖掘方法，揭示各种数据之间的关系。生物信息学在人类基因组计划中也具有重要的作用。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之，生物信息学不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长，这更离不开利用生物信息学进行各类数据的分析和解释，研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列，是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列，是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学医学数据

生物信息学在医学数据分析中的应用 1.前言随着信息技术的飞速发展，医疗数据以爆炸般的速度积累增长，特别是临床医疗数据的大量积累，但是如何有效的整合和利用这些数据进行科学研究，这就对有效数据的管理和挖掘提出了更高的要求。近年来，数据挖掘得到迅速发展，并逐渐应用到现实生活中，在分类分析方面表现相当出色，因此，已有专家将数据挖掘技术与基因表达数据分类问题相结合，发掘基因之间的关联联系，基因表达正常与非正常的活动范围，由此来理解基因表达的内在规律[1]，给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题：一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中，有的甚至存在于医生手写的随访记录本当中，这样分散存在的数据不利于收集、整合与分析。二是以往的临床科学研究都是以手工的方式去收集和整合数据，数据的可靠性和准确性得不到保证，而且容易产生数据丢失。与此同时，人工收集数据工作量大，数据采集速度慢、试验周期长的状况，这对临床科研数据的统计和分析结果的准确性提出来质疑。三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中，效率滞后，容易影响科研进度。针对上述几个问题，为确保收集数据的准确性、有效性和完整性，以便进行统计分析，基于临床科研的数据管理系统应运而生。 2. 支持向量机在医疗数据中的应用在疾病检测中，单一的生理信息不足以反映人体的健康状况，因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种，甚至几十种理化指标。医生综合这些检测的数据，根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然，这种诊断是主观性的，对同一个人，有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型，并将这种模型在计算机上实现，利用这一模型可以帮助医生对待测人体做出更客

生物信息学完整版

一、名词解释 1. 生物信息学： 1）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科； 2）它综合运用了数学、计算机学和生物学的各种工具来进行研究； 3）目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST（Basic Local Alignment Search Tool）直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库 3. PSI-BLAST：是一种迭代的搜索方法，可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。 5. HMM 隐马尔可夫模型：一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。（课件定义）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。 6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点：对于最大简约法来说没有意义的点。 8. 标度树：分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树：只表示亲缘关系无差异程度信息。 10. 有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。 11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，可以在无根树中指派根节点。 12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。 13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。 15. 有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。 16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。 17. 虚拟消化：是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切（课件定义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由计算机进行的一种理论上的蛋白裂解反应。 18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质量的准确确定成为可能。 19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。 20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。 21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构