当前位置:文档之家› 生物信息学复习笔记

生物信息学复习笔记

生物信息学复习笔记
生物信息学复习笔记

生物信息学

2018年12月21日

14:33

填空,选择,计算,简答,名词解释

几代测序的代表平台,优缺点

一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法

Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列

第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用

以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了

(1)DNA待测文库构建

利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。

(2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。

(3)桥式PCR扩增与变性

桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。

(4)测序

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。

这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。

第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性

以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是:DNA聚合酶和模板结合,4色荧光标记4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。SMRT 技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。

与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。

法法

第一代ABI/生命

技术公司

3130xL-3730xL 桑

格-

/

600-100

高读

长,

准确

度一

次性

达标

高,

能很

好处

理重

复序

列和

多聚

序列

通量低;样品

制备成本高,

使之难以做大

量的平行测序

第一代贝克曼GeXP遗传分析系统桑

格-

/

600-100

高读

长,

准确

度一

次性

达标

高,

能很

好处

理重

复序

列和

多聚

列;

易小

型化

通量低;单个

样品的制备成

本相对较高

第二代Roche/45

4

基因组测序仪FLX系统焦

230-400 在第

二代

中最

高读

长;

比第

一代

样品制备较

难;难于处理

重复和同种碱

基多聚区域;

试剂冲洗带来

错误累积;仪

器昂贵

的测序通量大

第二代Illumina HiSeq2000,HiSeq2500/MiSe

q

/

2x150 很高

测序

通量

仪器昂贵;用

于数据删节和

分析的费用很

第二代ABI/Solid 5500xlSolid系统连

/

25-35 很高

测序

量;

在广

为接

受的

几种

第二

代平

中,

所要

拼接

出人

类基

因组

的试

剂成

本最

测序运行时间

长;读长短,

造成成本高,

数据分析困难

和基因组拼接

困难;仪器昂

第二代赫利克斯Heliscope 单

/

25-30 高通

量;

在第

二代

中属

读长短,推高

了测序成本,

降低了基因组

拼接的质量;

仪器非常昂贵

测序法于单分子性质的测序技术

第三代太平洋生

物科学公

PacBio RS 实

DN

A测

/

~1000 高平

均读

长,

比第

一代

的测

序时

间降

低;

不需

要扩

增;

最长

单个

读长

接近

300

0碱

并不能高效地

将DNA聚合酶

加到测序阵列

中;准确性一

次性达标的机

会低

(81-83%);

DNA聚合酶在

阵列中降解;

总体上每个碱

基测序成本高

(仪器昂贵);

第三代全基因组

学公司

GeXP遗传分析系统复

/

10 在第

三代

中通

量最

高;

在所

有测

序技

中,

用于

拼接

一个

人基

因组

的试

低读长;模板

制备妨碍长重

复序列区域测

序;样品制备

费事;尚无商

业化供应的仪

本最低;每个测序步骤独立,使错误的累积变得最低

第三代Ion

Torrent/

生命技术

公司

个人基因组测序仪(PGM)合

p

H

100-200 对核

酸碱

基的

掺入

可直

接测

定;

在自

然条

件下

进行

DNA

合成

(不

需要

使用

修饰

过的

基)

一步步的洗脱

过程可导致错

误累积;阅读

高重复和同种

多聚序列时有

潜在困难;

第三代牛津纳米

孔公司

gridION 纳

尚未定量有潜

力达

到高

长;

可以

成本

生产

切断的核苷酸

可能被读错方

向;难于生产

出带多重平行

孔的装置

LAMP架构

Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。

序列比对,重中之重,肯定会有计算题,全局比对,局部比对

Sequence A: CAATTGA Sequence B: GAATCTGC Their optimal alignment

生物信息相关的重要数据库:序列数据库,结构数据库等,送几分

多序列比对,SP模型,线性比对

目的:

发现多个序列的共性

发现与结构和功能相关的保守序列片段

设:有k个序列s1, s2, ... ,sk,每个序列由同一个字母表中的字符组成,k大于2。通过插入操作,使得各序列达到一样的长度。

意义:

用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。

用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。

其他应用,如构建profile,打分矩阵等。

1、SP(Sum-of-Pairs)模型

逐对加和SP(sum-of-pairs)函数

1、计算多序列比对的SP模型得分,打分矩阵用课本中的PAM250矩阵,P(-,-)=0, 任意氨基酸与–得分为-1。

2、计算AACTCAT, CCATAAT,GTAACAT, GACCACT 4条序列的PSSM(计算步骤参见课本P63)

基因组组装,主要复杂在几个问题上,正反向都有等,贪婪算法和拓扑排序等

基因组组装存在的主要问题:

碱基错误

片段的方向未知

存在重复区域

缺少覆盖

用贪婪法和非循环子图拓扑排序方法实现课件中几条序列的组装。

贪婪算法

简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。

称经过处理后的新图为F的覆盖图,记为OG(F)。

贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边

无回路

节点出度为1(不可能有两条边同时从某个顶点出发)

节点入度为1 (不可能有两条边同时终止于某个顶点)

例如,设序列片段集合F={CA,ATCA,TGCAT},其覆盖图如图3.28实线所示,这里去掉了权值为0的边。依次取两条权值为2的边,形成一条哈密顿路径。贪婪算法并不能保

证总是产生出最佳的结果。如果将F第一个序列改为CATCA,则在原来的图中将加上虚线所示的边。按照贪婪算法,首先选择权值为3的虚线边,然而这样一来,其它两条权值为2的边都不能再选了,因为将它们加入后不满足哈密顿路径的条件。于是,算法只能选择权值为0的边,以建立完整的哈密顿路径,总的权值为3。可是,上述另外两条被拒绝的边形成一条哈密顿路径,并且权值和等于4,是权值最高的一条哈密顿路径,但贪婪算法找不到该路径。

假设检验,多元统计,没有计算只有相关概念

4.2.2.2 假设检验问题

从样本值出发,判断关于总体分布的某种假设是否成立。

举例

为验证一硬币是否匀称(即正反两面出现的概率是否相等),做投掷试验。假定试验结果有以下两个:

(1)正面55次,反面45次;

(2)正面40次,反面60次。

如何判断该硬币是否匀称?

假设检验的步骤:

分析题意,提出假设,确定显著性水平,计算检验统计量,做出推断

假设检验的基础:小概率原理,即小概率事件在一次随机抽样中不可能发生。

多元统计方法概述

运用数理统计方法研究多变量、多因素问题多元统计分析理论和方法

多元统计分析

研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题。多元统计分析的主要研究内容和方法

1、降维问题(简化数据结构)

(1)将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的变量

(2)把高维空间的数据投影到低维空间,使问题得到简化的同时损失的信息不太多。

主成分分析

因子分析

对应分析

2、归类问题

对所考察的观测样本(或变量)按照相似程度进行分类、归类

聚类分析

判别分析

3、变量间的相互联系

(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变量间的定量关系,并用于预测或控制

回归分析

(2)变量间的相互关系:分析两组变量间的相互关系

典型相关性分析

分子生物学的一些基本内容,起始密码子和终止密码子等隐马尔科夫模型,肯定有计算题

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学复习笔记

生物信息学 填空,选择,计算,简答,名词解释 几代测序的代表平台,优缺点 一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法 Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用 以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了 (1)DNA待测文库构建 利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。 (2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。 (3)桥式PCR扩增与变性 桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 (4)测序 测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。 这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。 第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性 以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学通论

https://www.doczj.com/doc/d815566435.html,/bioinplant/
《生物信息学札记》
樊龙江
第一章 生物信息学通论
我们处在一个激动人心的时代——基因组时代。科学的进步已使人类可以窥探生 命的秘密,甚至包括人类自身。人类基因组在世纪之交被人类自己破译了。这部由 30 亿个字符组成的人类遗传密码本已活生生地摆在了我们面前。于此同时,来自其它生 物的基因组信息源源不断从自动测序仪中涌出,堆集如山,浩如烟海。这些海量的生 物信息是用特殊的“遗传语言”——DNA 的四个碱基字符(A、T、G 和 C)和蛋白质的 20 个氨基酸字符(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y 和 V)— —写成。 《科学》 Science)在 2001 年 2 月 16 日人类基因组专刊上配发了一篇题为“生 ( 物信息学:努力在数据的海洋里畅游”(Roos DS.Bioinformatics—Trying to swin in a sea of data.Science,2001,291:1260-1261)的文章。文章写道: “我们身处急 速上涨的数据海洋中…,我们如何避免生物信息的没顶之灾呢?”一叶轻舟也许可以 救命!生物信息学便是我们找到的这样一条“轻舟” ,而且我们已在这条轻舟上安装了 诸如卫星定位系统等先进的电子设备。也许在不久的将来,人类会造就一艘永不沉没 的航空母艇……生物信息学是一门年青的学科,学科虽然年青,但它充满挑战、机遇 且引人入胜。
第一节
一、迅速膨胀的生物信息
生物信息与生物信息学
近 20 年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅速形成 了巨量的生物信息库。这里所指的生物信息包括多种数据类型,如分子序列(核酸和蛋 白质),蛋白质二级结构和三维结构数据、蛋白质疏水性数据等等。由实验获得的大量 核酸序列和三维结构数据被存在数据库中,这些数据库就是所谓的初级数据库 (primary databases);那些由原始数据分析而来的诸如二级结构、疏水位点和功能区 (domain)数据,则组成了所谓的二级数据库(secondary databases)。那些由核酸数据 库序列翻译而来的蛋白质序列数据组成的蛋白质数据库,也应被视为二级数据库。 生物信息的增长是惊人的。 近年来, 核酸库的数据每 10 个月左右就要翻一翻, 2000 年底, 数据库数据则达到了创记录的 100 亿个记录, 大量生物(甚至包括我们人类自身) 的整个基因组序列被测定完成或正在进行中,遍布世界各地研究实验室的高通量大型 测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入相应的生物信 息库中。同时,由这些原始数据分析加工而来的蛋白质结构等数据信息也被世界各地 的分子生物学、生物信息学等学科领域专家输入二级数据库中。图 1.1 显示出了各种 生物信息的同步增长状况。 迅速膨胀的生物信息给科学家们提出了一个新问题:如何有效管理、准确解读、 充分使用这些信息?
1

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学札记(第4版)

生物信息学札记(第4版) 樊龙江 浙江大学作物科学研究所 浙江大学生物信息学研究所 浙江大学IBM生物计算实验室 2017年9月 本材料已由浙江大学出版社出版:《生物信息学》,樊龙江主编,2017 部分内容可通过下列网址获得: https://www.doczj.com/doc/d815566435.html,/bioinplant/

札记前言 第一版 这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。 2001年6月 第二版 自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。 不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。欢迎告诉我札记中的BUG,我的信箱fanlj@https://www.doczj.com/doc/d815566435.html,或bioinplant@https://www.doczj.com/doc/d815566435.html,。 2005年3月30日 第三版 近年来高通量测序技术产生的序列数据大量出现(如小RNA和大规模群体SNP数据),本次更新根据这一进展增加了两章内容,分别是第七章有关小RNA的分析和第八章遗传多态性及正向选择检测。两章内容由我的博士生王煜为主编写,李泽峰和刘云参与了文献整理。另外还更新了第四章有关水稻基因组分析一节。 2010年1月 第四版 2014年浙江大学开展本科生教材建设工作,我当时作为系主任要带头,就承诺编写我主讲的《生物信息学》教材。编写教材的确不是一件容易的事,经过几番挣扎和多方努力,总算完成了编写,算是了却了一桩心思。该教材内容比较完整,也跟踪了生物信息学领域的最新进展。我就权且把该教材内容作为札记的第四版,也算给该札记一个完美的结尾。 2017年9月

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

医学信息学基本概念与定义-医学信息学基本概念(精)

医学信息学基本概念 J C Wyatt, J L Y Liu. 文研究生周琴译导师许培扬审 摘要:本文是关于医学信息学,这门年轻的学科的术语的定义汇编。希望它对行业内的初学者与职业工作者能有所益处。 关键词:医学信息学词汇表 医学信息学主要研究与应用方法去改善对病人信息、临床知识、人口信息和其它与病人康复与公共卫生有关的信息的管理。它是一门伴随19世纪40年代数字计算机的出现而产生的年轻学科。用于医学的机械性计算起源于更早的年代,在19世纪,赫尔曼霍列瑞斯的“打卡数字处理系统”即开始用于美国人口普查,随后又被用于公共卫生与流行病学调查1。此例反应了医学信息学的多学科性,它与各个不同的领域都有相关性,包含临床医学、公共卫生学(如流行病学与卫生服务研究)、认知科学、计算和信息学。 由于医学信息学工作者的领域多样,新来者很容易混淆行业的专业术语。因此,对想更多了解医学信息学的人做一个医学信息学的基本概念的介绍是有用的。近几年,关于此学科的各种不同分支开始出现,包括公共卫生信息学、用户卫生信息学与临床信息学。对于医学信息学与它的分支学科是否是不同的学科的讨论,Shortliffe 和Ozbolt认为:“信息学的基础是一系列可重复利用与广泛应用的方法,它对所有的卫生学学科都适用,并且‘医学信息学’对于一个综合性核心学科是一个有用的概念,所有的学生都应该学习,不管这些学生的医学专业方向。”2 3以下对医学信息学的分支学科的定义反应了这一理念。 挑选医学信息学术语的标准,在挑选某术语时采用了以下一条或者多条原则: ●对流行病学家和公共卫生专家而言是新出现的词语。 ●一个有众所周知含义的术语,被用于医学信息学领域的具体方面。 ●与流行病学或公共卫生相关的概念。 ●对理解医学信息学必不可少的概念。 ●一个存在时间较长,而不是过渡性的专业术语。 ●在对此术语的意义与使用上有普遍的共识。

与核苷酸和蛋白质序列相关的特征关键词表

附录:与核苷酸和蛋白质序列相关的特征关键词表 表1 与核苷酸序列相关的特征关键词表 关键词说明 allele相关的个体或菌株含有相同基因的稳定的其它形式,该形式区别于这一位置的现有的序列(和或许其它序列) attenuator存在调节转录的终止的DNA区域,它控制了一些细菌操纵子的表达;(2)位于启动子和第一个结构基因之间,引起转录的部分终止的序列区段 C_region免疫球蛋白轻和重链的恒定区,和T-细胞受体α,β,和γ链;根据特定的链可包括一个或多个外显子 CAAT_signal CAAT盒;位于可能参与RNA聚合酶结合的真核生物转录单位的起始点的75bp上游的保守序列的一部分;共有序列=GG(C或T)CAATCT CDS编码序列;对应于蛋白质中的氨基酸序列的核苷酸的序列(位置包括终止密码子);特征包括氨基酸概念上的翻译 Conflict在这一位点或区域,单独确定的“相同”序列有所不同 D-loop置换环;线粒体DNA内的一个区域,其中RNA的短的序列与DNA的一条链配对,代替了这一区域的原始配对DNA链;也用于说明在RecA蛋白质催化的反应中, 侵入的单链替代双链DNA的一条链的区域 D-segment免疫球蛋白重链的多变区,和T-细胞受体的β链 Enhancer顺式-作用序列,它增强了(一些)真核生物启动子的作用,并能在任一方向和与启动子相关的任何位置处 (上游或下游)起作用 Exon编码剪接mRNA部分的基因组区域;可以含有5'UTR,所有CDS,和3'UTR GC_signal GC盒;位于真核生物转录单位起始点上游的保守的富含GC区域,可以以多重拷贝或任一方向存在;共有序列=GGGCGG gene鉴定为基因的生物学意义的区域,并已经指定名称 iDNA间插DNA;通过几种重组中的任何一种能被消除的DNA intron被转录的DNA区段,但通过同时剪接位于其两侧的序列(外显子)即可从转录本内部将其除去

生物信息学试题复习参考(张弓)

2014-2015学年生物信息学期末考试题 写在前面:这是我考试时候写的答案的大致内容,具体文字我已经不记得了,给大家一个参考,希望对大家复习有帮助。因为我也是扣了很多分,所以答案也有很多错的,大家不要尽信。祝大家考试顺利。 一、实验设计和基础分析 以下qPT-PCR实验方案有哪些错误?请标出错误,并说明原因和写出正确方案。 目的:比较肺癌细胞迁移前后的X基因转录水平表达量 方法:(1)用Trizol法提取细胞总RNA,并用跑胶、OD260/280等方法确认无降解。 (2)用poly-dT引物进行反转录 (3)设计基因特异性PCR引物,用qPCR仪测定X基因和GAPDH基因的Ct值。GAPDH作为内参。 (4)以2^-ΔΔCt方法计算X基因相对于GAPDH的相对含量 (5)比较迁移前后的相对表达量,做三个重复,用t-test进行统计检验,P<0.05为差异显著 1.错误:不能用GAPDH基因作为定量标准;原因:癌症迁移前后GAPDH基因的表达量已经改变了,做定量标准不准确;方案:采用外参(如:其他物种的基因) 2.错误:不能用t-test进行统计检验;原因:t-test进行统计检验的前提是数据呈正态分布,基因表达量不一定呈正太分布;方案:将数据取log10,对数化。 上述两个是我考试时候写的答案,后来经提醒:还发现了一个错误:不能用poly-dT引物进行反转录;原因:。。。。。。;方案:用Oligodt进行逆转录。 二、双序列比对的生物学意义解释 两种细菌的同源蛋白质endonuclease III,长度都为200氨基酸左右,其功能相同,蛋白质序列使用BLAST 可以比对上,同源性高达57%,但其编码DNA序列用BLAST却无法比对上,为了尽可能提高亲缘关系较远的序列的比对效率,比对已经使用BLAST网站上Somewhat similar sequence选项,默认参数(见下图):

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

蛋白质的功能域、结构及其药物设计----6

第六章 蛋白质的功能域、结构及其药物设计 随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此,蛋白质组又是一个动态的概念。由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。由此可见,蛋白质组研究是一项复杂而艰巨的任务。 蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。 该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(P а,P β 和P t )并 用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。 第一节 蛋白质功能预测 一、根据序列预测功能的一般过程 如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析: ①比较未知蛋白序列与已知蛋白质序列的相似性; ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。 图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。

中国科学院大学生物信息学期末考试资料,陈润生老师

生物信息学期末考试复习 1.生物学中的7个数学故事 (1) 孟德尔遗传定律(分离和自由组合定律)运用了组、合原理中的加法原理和乘法原理。 (2) Hardy-Weinberg遗传平衡定律通过构造数学关系式来证明。 (3)基因在染色体上的线性排列采用概率分布优化距离的计算距离,使其更接近真实情况。 (4)关联分析通过假设检验看两个特征的关联有无统计显著性。 (5) 序列比对设计合适的算法可以有效降低计算复杂度。 (6)基因组学和其他的组学组学时代产生的大量数据需要依赖数据库技术来寻找生物分子之间的关联。 (7)微阵列芯片大规模芯片数据需要数据挖掘:聚类、关联、预测建模、异常检测。 2. DNA、protein、RNA序列比对及其算法 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。常用的方法有:点阵法,动态规划算法,k-tup 算法等。 (1)dotplot算法:通过点阵作图的方法表示,能很直观地氨基酸序列或核苷酸序列上的插入、删除、重复和反相重复。 算法步骤:将两条序列的碱基(或残基)分别沿x轴和y轴排列,依次比较两条序列的每个碱基(或残基),如果两个碱基(或残基)相同则在矩阵中填充点,这样就形成一个点矩阵。在点矩阵中,将对角线上的点连接起来,这些直线所对应的矩形区域就是这两条序列的相似性片段。 算法特点:该算法相似性片段实际上是相同的片段;而且不能提供相似性片段在统计学意义上的相似性。 (2)动态规划算法:分为全局动态规划算法和局部动态规划算法。保证了指定打分模型的情况下,两条序列能获得尽可能的最高分 算法步骤:①初始化序列矩阵;②将序列输入矩阵,计算分数并绘制箭头;③用箭头回溯找到最优得分路径;④连接最优路径,产生序列比对。 动态规划算法优缺点: 优点:对于一个给定的计分函数集合,能找到最优的比对 缺点:时间复杂度为O(n 2),运行慢,计算所需的内存与序列长度的平方成正比,因此不适用于非常长序列的比对。 序列比对的定义,存在哪几种算法,打分矩阵是什么意思 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列; 算法种类:动态规划算法、Smith-Waterman Alterations算法、FASTA - Hi Level Algorithm 算法、BLAST – Heuristic算法; 打分矩阵:通过点矩阵对序列比对进行积分,根据不同物质情况可分为DNA序列打分矩阵:等价矩阵、转换-颠换矩阵、blast矩阵;蛋白质打分矩阵:等价矩阵、遗传密码矩阵、疏水性矩阵、PAM矩阵、BLOSUM矩阵。 1.动态规划算法,给个表格可以把数字填出:

CADD药物信息学基本知识

药物信息学初步 1药物信息学: a药物信息学是有关药物研究和开发过程中所涉及的大量小分子、大分子及其相互作用信息的学科。 b药物信息学,简单说来就是化学信息学和生物信息学的加和。 c也包括类药性、药物代谢动力学性质和毒性预测、药靶预测、高内涵筛选及代谢模型等综合信息在新药发现和发展中的整合、分析和应用。 2化学信息学与生物信息学 ?化学信息学(Chemoinformatics,Chemical Informatics),简而言之,一切与小分子化合物有关的计算机操作和运算都属于化学信息学的研究范畴,包括小分子的结构、构象、能量、性质等,也包括小分子与大分子的相互作用,还包括小分子的设计。 ?化学信息学的研究已有较长的历史,比如1960年代出现的QSAR,但作为学科名词1998年才首次出现。 ?与之相对的是生物信息学(Bioinformatics或Biological Informatics)。生物信息学是随着人类基因组计划的实施而出现的,最初仅是指对基因组序列的比较分析。但现在已发展到既对生物大分子的序列、也对生物大分子的结构、构象进行研究。针对生物大分子结构、功能等的计算研究,叫做计算生物学(Computational Biology)。 3 化学信息学在药物设计中的主要应用 ●虚拟组合化学库的设计; ●化合物数据库的相似性分析与多样性分析; ●化合物数据库的类药性分析、ADMET性质预测; ●化合物数据库的虚拟筛选; ●。。。 4 为什么要进行ADMET预测 ●ADMET是候选药物临床研究失败的主要原因(占60%)。 ●ADMET评估已成药物研发的关键,需尽早进行。 ●由于ADMET涉及药物体内过程,因此评估非常困难。 ●实验评价ADMET缺点:代价大、周期长,一般在临床前研究阶段才开始进行,且动物数据与人体数据并 不完全一致。 ●计算机预测ADMET优点:代价低、速度快,可以在化合物合成之前进行,也可以与先导物优化一起进行, 这样可将理论上具有不良ADMET性质的分子尽早排除,从而降低失败率。 5 ADMET预测的基本要求 ●要有大量可靠的实验数据供使用; ●要有合适的方式对分子结构进行表达; ●要有合适的建模方法及评价指标。 6 常规ADMET预测方法 ●分子结构采用分子描述符进行表达;分子描述符与性质之间采用统计回归分析方法建立预测模型。 ●存在的问题:分子描述符是间接描述分子,具有计算繁杂、数据可能不准确,数量众多而难以取舍,模型 可解释性差等问题。 7 基于子结构模式识别的ADMET预测方法 ●新方法:分子结构采用分子指纹进行表达;分子指纹与性质之间采用机器学习方法建立预测模型。 ●优点:跳过分子描述符而直接从分子结构出发来预测分子性质,提高了预测精度;采用信息增益技术识别 关键子结构,建立的模型具有可解释性;等等。 8生物信息学在药物设计中的应用 ●药物作用新靶标的发现与确证: ?人体内靶标 ?病原体内靶标 ●蛋白质序列比较、分析;蛋白质结构相似性比较、同源蛋白的识别。 ●蛋白质二级结构与三维结构的预测。 9 序列比对(sequence alignment) ●序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。

相关主题
文本预览
相关文档 最新文档