当前位置:文档之家› 表达谱

表达谱

表达谱
表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。

基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。

聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。

8.4.1 相似性度量函数

对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。

常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件:

d( X ,Y ) ≧ 0

d( X ,Y ) = d( Y ,X )

d( X ,Y ) = 0 if X = Y

d( X ,Y ) ≦ d( X ,Z ) + d( Z ,Y )

欧氏距离( Euclidean distance )是一个通常采用的距离定义,它是在 m 维空间中两个点之间的真实距离,两个基因表达谱之间的欧氏距离计算公式如下:

(8-15)

相关系数也是常用的相似性度量函数,计算公式如下:

(8-16)

(8-17)

其中,G offset是G的各分量的均值,是标准方差。用上述两种相似性度量,可以找出表达谱相似或者变化趋势相同的基因,如图 8.2(a) 、 (b) 所示。欧氏距离、相关系数可以反映基因之间的共表达关系,两个基因表达谱间的距离小于给定的阈值或相关系数大于某个给定的阈值,就可以认为它们之间是共表达的。距离和相关系数之间存在关联,在具体应用时,可以根据需要进行转换。

距离和相关系数反映的都是基因表达谱之间的相似性,这种相似性反映了基因的共表达行为,而基因的行为是复杂的,它们之间存在调控和被调控的关系,或者存在调控链,例如基因 A 调控 B , B

调控 C ,调控还有正性调控和负性调控之分。对于这些调控关系,它们的表达谱往往是不相似的,或者存在时延、或者存在反相,而基因表达的幅度也可能不相等。如何从数据中发现这些复杂的基因关系呢?

互信息可能是一种有用的度量指标,其定义如下 :

MI ( X , Y ) =H ( X ) +H ( Y ) -H ( X , Y )(8 -18)

(8-19)

MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分别是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的联合熵。归一化互信息 NMI 定义如下:

NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ] (8-20)

NMI 独立于单个信息熵,抓住了模式上的相似性。互信息聚类分析没有规则上的约束,不象欧氏距离。

目前,还没有理论来指导如何选择最好的相似性度量,也许一个“正确”的距离在表达模式空间是不存在的,选择何种度量函数依赖于我们要解决的问题。

8.4.2 聚类方法

对于基因表达谱的聚类问题,由于目前对基因表达的系统行为了解得不全面,没有聚类的先验知识,所以通常采用无监督学习方法。在基因表达数据分析方面,层次式聚类、 K 均值、自组织映射神经网络在应用中是常用的方法。下面主要介绍这几种常用的聚类方法,并简单介绍一些其它方法。

8.4.2.1 简单聚类

假设有G个基因,它们的表达谱分别用向量表示为。令任意一个基因的表达

向量为第一个聚类的中心 , 假设选择。然后计算到的距离D21,如果D21大

于给定的阈值T,则说明不属于第一类,应该分到另外的类。在这种情况下,建立一个新的聚类中

心;如果D21小于阈值T,则将分到第一类中。接着处理其它基因,在处理第 i 个基

因时,首先计算该基因的表达谱与现有各类中心的距离,假设与第 j 类的距离D ij最小,并且D ij

简单聚类算法的结果与第一个聚类中心的选择、基因的顺序、阈值 T 以及基因表达谱在其空间的分布有关。该方法对于给定的一组基因表达数据模式进行初步分类提供了一种快速的算法。

8.4.2.2 层次聚类法

层次聚类法,在统计分析中也称为系统聚类法,原理和算法与第 6 章所介绍的系统发生树连锁构造方法类似,所不同的只是将所分析的数据由生物分子序列换成了这里的基因表达谱。该方法在基因表达谱聚类分析中是常用方法,它的优点是容易理解和实现,所得到的结果以树状图的形式表示,可以直观地观察基因之间的相互关系,尤其是类与类之间的关系。但是,基因表达谱的数量很多,往往要多于系统发生树分析时的物种数量,而且基因之间相互关系的信息也没有物种之间的多,所以,对聚类结果的后续分析要比系统发生树分析复杂得多。对于表达谱聚类的结果还需要进一步分析基因的功能或者基因的序列特征,一般通过剪枝得到分类结果,而剪枝的过程往往带有更多的主观性,这会导致丢失一些重要的信息或包括一些无关的信息。此外,在构建基因表达谱聚类树时,已被合并的向量不再参与以后的分类,这会导致聚类结果与向量的次序有关,所以被认为是一种局部最优解的方法。

8.4.2.3 K 均值聚类

K 均值聚类在数据划分上不考虑类的分层结构问题,该算法使待聚类的所有向量到聚类中心的距离的平方和最小,这是在误差平方和准则的基础上得到的。 K 均值聚类算法如下:

(1) 任意选取 K 个基因表达谱向量作为初始聚类中心Z1 , Z2,…, Z k,在没有先验知识的情况下,一般选择前 K 个基因。

(2) 对所有的基因表达谱向量进行反复迭代计算。在第l 次迭代过程中,如果

则将 X 所代表的基因归于第 j 类。

(3)经过一次迭代计算后,聚类中心可能发生变化,因此需要重新计算 K 个新聚类中心:

(8-21)

其中f j(l) 为第l 次迭代中第j个聚类的基因集合,N j为该集合中基因的个数。

(4)对于所有的聚类中心,如果Z j (l+1)= Z j (l)(j=1,2,…,K) ,则迭代结束,得到最后的聚类结果;否则转第 2 步,继续进行迭代计算。

聚类中心的个数 K 、初始聚类中心的选择、基因排列的顺序以及基因表达谱数据的分布影响聚类的结果,当基因表达谱类别之间分离较远时,该算法可以取得令人满意的聚类分析结果。

8.4.2.4 自组织映射神经网络

人工神经网络技术在模式识别方面有着独特的优势,神经网络能够进行非线性数据处理,发现复杂的数据关系,其中,自组织映射神经网络( Self-Organizing Map , SOM )可以对模式数据进行自动聚类。

自组织特征映射是 Kohonen 在 1990 年提出的类似大脑思维的一种人工神经网络方法,它是一种竞争学习算法,可以被认为是一种从 N 维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。 SOM 采用无教师学习训练,训练完成后,分类信息存储在网络各节点连接权值向量中,与权值向量相似的输入向量将分为一类。 SOM 包括一维和二维模型,二维 SOM 也称为 KFM(Kohonen Feature Mapping) 。它们的区别在于 KFM 考虑邻近神经元的相互作用,即获胜神经元对周围神经元由于距离的不同会产生不同的影响。

KFM 的结构如图 8.3 所示,输入网络的是一个 n 维向量的所有 n 个数值,输出单元呈二维排列,个数为p × p, 输入层与输出层的各单元之间是全连接的,并用 W 表示连接权重。 KFM 的学习过

程就是对所有的 G 个样本向量进行迭代学习,直到权值 W 的变化小于某一个确定的阈值或迭代达到一定的次数。测试过程比较简单,对于每一个样本向量,计算其获胜神经元,输出单元相同的样本向量属于同一类。虽然 KFM 有学习过程,但是可以看到这种学习是从所有的样本中自动获取特征,没有教师的参与,因此称为无监督的学习方法。

Kohonen 认为,神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器。该思想来自于大脑神经元的特性,即大脑皮层的神经元成二维空间排列,不同区域分工不同,各自对输入模式的不同特征敏感,神经元之间存在信息交互,主要是侧向交互,即某个经元对周围神经元之间存在由近到远的不同的影响作用,而不是简单的侧抑制作用。对邻近神经元的交互作用函数有巴拿马草帽型(公式 8-22 )或矩形型(公式 8-23 )。

(8-22)

(8-23)

其中d cj是输出单元c与邻近单元j之间在神经元平面上的距离, R 是交互作用半径。

KFM 的学习过程如下:

学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径 R ,随着学习过程的不断推进,逐步减小 R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。

KFM 的聚类结果与 K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了 K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。

8.4.2.5 其它聚类方法

聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。

(1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。

(2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的 K 均值聚类方法中。对于 K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是 0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第 i 个样本属于第 j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与 K 均值法的实现过程基本相同,所不同的是对于模糊 C 均值法并不是直接将样

本向量归类,而是计算属于各类别的隶属度;同样它没有一个明确的类界限,在计算聚类中心时,需要考虑所有的样本向量,根据隶属度μ来计算聚类中心。

(3)谱聚类:K 均值聚类对于聚类中心相距较远的数据样本具有很好的聚类效果,而对于具有同心圆特征的数据样本很难得到好的分类效果,而谱聚类( Spectral clustering )能够很好的对具有这种特征的样本进行聚类。谱聚类是一种基于矩阵特征向量的方法,也是一种能根据顶点之间的权值对图进行划分的方法。用图表示基因表达谱矩阵,基因表达谱可以看作是一组顶点,连接顶点的边的权值反映了两个表达谱之间的相似性,这样就得到有权无向图 G(V , A) ,聚类过程等价于将 G 划分为不连接的子集,这可以通过简单地删除连接边来实现。聚类过程包括两个步骤:第 1 步是将表达谱空间转化为相似度矩阵的特征向量空间;第 2 步是应用简单的 K 均值法对特征向量空间的特征向量进行聚类,得到的结果就对应了基因表达谱的聚类结果。该方法可以根据特征值自动确定分类数目。谱聚类在聚类过程中进行了特征空间的转换,可以将大的空间转化为较小的空间,从而可以更快速地处理大规模的数据。

(4)超顺磁性聚类:超顺磁性聚类( superparamagnetic clustering )是一种基于模拟非均匀铁磁物质的物理特性的聚类方法,将数据聚类问题视为检验不均匀 Potts 模型的平衡特性。根据表达谱向量之间的距离矩阵构建图,顶点是数据点,如果两个点之间的距离满足 K-mutual-neighbor 准则,则称为邻居。数据点的聚类等价于有权图的划分。给每一数据点分配一个 Potts 自旋子,相邻数据点间引入强度随距离下降的相互作用函数。非均匀 Potts 模型系统随温度变化表现出三相:在低温下,所有自旋子呈现完全有序的排列,系统为铁磁相;随着温度的升高,小区域自旋子形成磁化“颗粒”,附属于同一“颗粒”者相互间产生强耦合,而无关者间相互作用很弱,不同“颗粒”的排列呈无序状态,为超顺磁相;在高温下,系统不表现任何有序性,为顺磁相。在超顺磁相的转换温度下,磁化率表现出显著的峰值。原则上,超顺磁相可以有一系列的转换点。随着温度的升高,系统可以首先分裂为两类,其中每一类又可以分裂为更多的子类,这样,数据就分层组织为类。超顺磁性聚类算法的优点是对噪声及初始化不敏感,因为类由系统的综合性质产生。由磁化率的峰值很容易鉴别主要的分界,从而能清楚显示类的构成和分界,并且在每一个分辨率上能自动确定类数。

(5)双向聚类法:以上所述方法主要是对基因表达谱进行聚类,或针对基因表达矩阵的行进行聚类分析,将具有相似模式的基因表达谱分为一组,这是在应用中要解决的主要问题。基因表达数据矩阵中的列表示了实验条件,可以是时间序列,也可以是不同的肿瘤样本或病人样本。从生物学应用的角度,针对列的聚类可以发现各实验条件之间的相互关系,例如,同一肿瘤类型的样本可以聚成一类,它们具有相似的基因表达模式,这样就可以基于表达谱对肿瘤进行分类。从数学的角度,数据矩阵中的每一列对基因表达谱的行聚类结果有着不同的影响,挑选部分列进行聚类的结果与选择所有列进行聚类的结果是不同的。将两者结合起来,就称为双向聚类法,在行和列两个方向上进行聚类分析,通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类,这些子矩阵中感兴趣的模式具有特定的生物学意义。在应用中,可以根据具体的目的,确定以降低基因维数还是以降低样本维数为主,通过迭代得到稳定的若干样本分类或基因分组。

8.4.3 基于模型的聚类方法

在基因表达数据显著性分析时,我们提到贝叶斯方法的应用,它分别对两种条件下的数据构建模型,通过比较它们的模型参数来确定表达差异的显著性。同样,基因表达谱分析也可以引入建模的方法,假定每一个基因表达谱是由一种内在的概率模型产生的,它满足一定概率分布或者分布的有限组合,例如多元正态分布,而所有的基因表达谱是由若干个概率模型混合产生的,这样就可以通过确定这些概率模型,来实现对基因表达谱聚类的目的。高斯混合模型是该聚类方法中的常用模型。与上面所述的各种启发式聚类算法比较,基于模型的方法具有的最大优点是,不需要使用严格的方法来确定类的数目或最佳的聚类方法,但是不足是计算量非常大,对于大量数据的分析比较困难。

基于混合模型的聚类,首先假设数据中蕴含的每一类样本由一种内在的概率分布混合产生,例如高斯混合模型,独立多元观测y1,y2,… ,y n组成的数据Y中每一元素y k由参数为u k(均值向量)和Σk(协方差矩阵)的多元正态分布模拟,

(8-24)

式中的det是求矩阵行列式值的函数。算法的目标是由数据预测参数u k和Σk并确定相应于这些参数

预测的类。为了便于参数预测,对Σk进行特征值分解:,D 为特征向量组成的正交矩阵,确定模型的取向,A为对角矩阵,元素与Σk的特征值成正比,确定模型的形状λ为标量,确定模型的体积。约束和改变部分参数,可以得到这一概率框架下的一组模型,如 , 等体积球模型(

EI :,I 为单位矩阵)、不等体积球模型 (VI: ) 等,以适应数据特征的变化。模型参数可以通过 EM (期望最大化)方法估计。每一种协方差矩阵与类数组合情况相应于不同的概率模型,由贝叶斯信息准则 (BIC) 估计每一种模型下数据被观测到的概率,计算模型的 BIC 得分,最后选择BIC 得分最大的模型和参数对该样本进行分类。

8.4.4 支持向量机

如上所述,对于基因表达谱数据矩阵M,在对行或列向量进行聚类分析时很少或根本没有用到生物学知识,所得到的结果是否具有生物学意义,还需要进一步的分析。然而,对于特定的数据矩阵,都有特定的生物学背景,例如,基因之间存在相关性,可以分成若干功能类,样本之间也存在某种关系,可能来

自患有相同肿瘤的病人。将这些知识应用于聚类方法中,挑选部分样本作为训练样本,可以提取特征构建分类器,然后对其它的样本进行分类,实现聚类的目的。这种方法称为有监督学习方法,支持向量机( s upport vector machine , SVM )就是这样一种从少量样本中提取分类信息的机器学习方法。因为 SVM 仅仅需要少量样本,而实现对大量样本的分类,这与分类问题中通常有明确类别存在的情况下对未知类别进行分类是不同的,所以,在这里将它作为一种聚类方法进行介绍。

统计学习理论是目前针对小样本统计估计和预测学习的最佳理论,它从理论上较系统地研究了风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系以及如何利用这些理论找到新的学习原则和方法等问题。支持向量机是实现统计学习理论思想的具体方法,可以用于解决小样本、非线性及高维学习问题,不需要足够的样本来构建特征空间,而仅仅需要少量的样本来构建分类界面,这些用来构建分类界面的样本就称为支持向量。

考虑图 8.4 所示的二维两类线性可分情况,图中实心点和空心点分别表示两类训练样本点,分类线 H 能把两类正确地分开, H 1 , H 2 平行于 H ,并且分别为两类样本中离分类线 H 最近的点,H 1 、 H 2 之间的距离叫做两类的分类空隙或分类间隔,最优分类线就是要求分类线不但能将两类正确地分开,同时要求使两类的分类空隙最大,从而使真实风险最小。对于高维空间,最优分类线就成为最优分类面。

假设线性可分样本集为是类别标号,则

分类判别函数为 , 分类面方程为。将判别函数归一化,使两类所有样本都满足,即使离分类面最近的样本的判别值为 1 ,这样分类间隔=2/。要使间隔最大,必须使最小,要求分类线对所有样本能正确分类,就要求它满足:

(8-25)

因此,满足上述条件且使最小的分类面就是最优分类面。过两类样本中离分类面最近的点且平行于最优分类面的超平面 H 1 ,H 2 上的训练样本就是使等号成立的那些样本,即支持向量。

那么,如何求最优分类面?根据上述讨论,最优分类面问题可以表示成在条件( 8-25 )的约束下,求函数的最小值。为此,可以构建 Lagrange 函数

(8-26)

其中>0,为 Lagrange 系数,问题转化为对w和b求Lagrange函数的极小值,分别对w和b求偏微分并令它们等于0,在约束条件

(8-27)

之下,对求解下述函数的最大值,

(8-28)

若为最优解,则,即最优分类面的权系数向量是训练样本向量的线性组合。

求解上述问题后得到的最优分类函数是:

(8-29)

sgn() 为符号函数。由于非支持向量对应的均为 0 ,因此,式中的求和实际上只对支持向量进行,而是分类的阈值,可以由任意一个支持向量求得,或通过两类中任意一对支持向量取中值求得。从最终的分类判别函数中可以看到,只含有待分类样本与训练样本中的支持向量的内积运算。

对于两类情况的分类,就是要构建最优分类面或超平面。对于大多数真实世界的问题,包含不可分的数据,也就是在数据空间中不存在一个超平面可以成功的区分两类样本。一个解决办法是将数据映射到更高维的空间,在那里定义一个可分隔的超平面。这个更高维的空间称为特征空间,而对应的训练样本所在的空间叫输入空间。问题就成为如何选择一个足够维度的特征空间,使得训练数据可分。

SVM 的基本思想是首先通过非线性变换将输入空间变换到一个高维的特征空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。用于超平面分类点的决策函数仅仅包含特征空间中点之间的点积,因此寻找特征空间中可分隔超平面的算法完全可以用输入空间中的向量和特征空间中的点积来陈述。 SVM 能够定位超平面,不需要明确地表示特征空间,只需要简单地定义称为核心函数的函数K ,它在特征空间中起着点积的作用,这个技术避免了明确表示特征向量的计算负担。

SVM 的判别函数为:

(8-30)

一些简单的核心函数有多项式形式的内积函数( 8-31 )和核函数型内积( 8-32 )

(8-31)

(8-32)

是高斯宽度,等于正样本与最近负样本间欧氏距离的中值,得到的 SVM 是一种径向基函数分类器。8.4.5 聚类结果的可视化

对微阵列基因表达谱的聚类分析得到的一般是基因的分组信息和基因表达谱的相互关系,如何进一步了解同组基因的表达谱差异?不同组基因之间是否存在相互关系?哪些基因是上调或下调的?幅度变

化有多大?在何种条件下发生较大的变化?这些问题是生物学家普遍关注的问题,需要通过简单、直观的方法来给出这些答案。数据对于大多数人来说太抽象了,而文字的描述又难以反映数据的本质,采用可视化的方法可以大大方便对表达谱分析结果的理解,有利于对这些问题的回答。

在数据挖掘中,可视化方法可以用来发现数据中的固有结构,这是因为人类的眼睛和大脑具有强大的结构探测能力——这是长期进化的成果。可视化方法就是以各种可以发挥出人类在模式处理方面的特殊能力的方式来显示数据。可视化方法在数据挖掘中占有非常重要的地位,它是筛选数据寻找未知数据关系的理想方法。可视化方法是生物信息学中常用的一种表示和发现生物学知识的方法,典型的例子有蛋白质三维构象的显示、转录因子 DNA 结合位点一致序列的 logo 表示、基因调控网络的图形表示等。

基因表达谱的数据特点是基因数目多,样本少,而每一个数据点所表示的是基因在特定条件下的表达数据,经过数据预处理后,往往是与参考样本表达水平的比值的对数值,负值表示基因表达水平的下调,正值表示上调,值的绝对值反映了变化的幅度。因此,对于表达谱数据及其聚类结果通常用两种方式表示。

第一种可视化表示方式是彩色盒图和树状图 (dendrogram) 。所谓的彩色盒图是用不同的颜色小方盒来表示基因表达谱数据,一个小方盒表示一个数据,绿色表示数据小于 0 ,红色表示数据大于 0 ,相对应的生物学意义是对应的基因在相应的条件下是上调还是下调,而颜色的深浅反映了数据的绝对值大小。基因表达谱的很多聚类结果是以树状图的形式表示的,例如,对于层次聚类法、模糊聚类等方法,这些结果的可视化是通过树状图和彩色盒图相结合表达的(如图 8.5 ( a )所示)。树状图是系统发生分析中常用的物种进化关系的表示方法,在这里反映了基因表达谱之间的关系,通过不同层次的剪枝,可以得到不同的基因子集。树状图和彩色盒图的结合,可以很好地反应具有不同表达特征的基因之间的相互关系,例如,对于细胞周期的基因表达检测,可以很方便地知道哪些基因是周期性表达的,它们的表达高峰分别在哪一个时期等。从这种方式的表示中,可以方便地发现相关的基因,并对它们进行深入的分析。对于 k 均值、 SOM 等聚类方法得到的结果也可以用彩色盒图表示,分在同一组的基因安排在一起,也能基本反映基因表达谱之间的相互关系。该方法的局限性在于基因的数量很大,很难对全部基因进行同时的细节观察。

第二种可视化表示方式是点线图。在直角坐标系的第一象限中用点表示基因表达数据,并用线将相邻的点连接起来。这样,一条曲线就表示了一个基因在不同条件下的表达水平,对于时间相关的数据,可以在一定程度上反应基因的动力学行为。对表达谱聚类分析后,得到的每一个基因子集可以在一个图中显示出来,如图8.5( b )所示。点线图比盒形图更能直观地表示基因的表达水平和不同基因在相同条件下的差异。

可视化方法对于基因表达谱聚类结果的理解非常重要,对于生物学家分析和理解生物学意义具有不可替代的作用。除了上述两种主要的表示方法外,还有一些方法可以直观地根据表达谱数据显示基因之间的相互关系,例如,多维缩放分析和主成分分析的图示结果等。将表达谱分析结果与基因序列、转录调控因子、启动子等其它数据结合起来,应用可视化技术显示这些数据及其关系,有助于深入理解基因表达调控,认识基因之间的相互作用,发现新的生物学知识。

8.4.6 聚类结果的定量评价

从上述对聚类算法的介绍来看,聚类方法很多,针对同一个数据集,可以选择不同的相似度函数和不同的聚类方法,自然会产生一个问题,针对特定的数据集,这么样的聚类结果是“好”的?很显然,不同的聚类方法得到的结果是不一样的,也许它们可能会从不同的侧面来反映特定的生物学知识。但是,从目前在生物医学中的应用看,对特定的表达谱数据,最常用的还是层次式聚类、 K 均值算法或自组织特征映射法。为什么有许多其它的方法而不用呢?这也是拥有基因表达实验数据的生物学家面临的一个主要问题,如何为他的数据集选择正确的聚类算法?要选择“好”的聚类方法,首先必须对各种聚类方法进行

评价,分析其适用的数据集类型,然后才能针对特定的数据集推荐“好”的聚类方法,最后还得对聚类结果进行评价,判断所得结果是有效的,正确的。

要对聚类结果进行评价,黄金标准当属于能否发现生物学知识,即从数据出发,能够找到新的生物学知识或得到明确的对某些生物学问题的答案,例如,能够预测未知功能的基因,能够明确样本的肿瘤分型,能够获得基因之间的调控关系等等。能够在生物医学中得到应用,该方法就是有效的,就是好的方法。但是,对方法进行生物学评价是非常困难的。聚类方法作为一种探索性的知识发现方法,它的结果是预测性的,而生物学知识还是非常不完备的,很难从理论上来证明,因此必须通过生物学实验的验证才能证明其预测的正确性。就目前的生物分子信息检测技术而言,还是非常困难的。目前,对聚类结果的评价主要从内部标准和外部标准两个方面进行。所谓的内部标准,是指利用结果的统计特征,而不借助任何外来信息进行评价,例如,类间分离度、类内紧致性等;所谓外部标准是指有一个参考标准,分析新的聚类结果与参考标准的匹配性,来判断聚类方法的好坏。聚类结果的有效性分析是聚类分析方法的瓶颈,以下介绍常用的几种聚类算法的定量评价指标。

( 1 )误差平方和准则:

假定有一组样本,要求将这些样本分成 c 个类,由于存在多种可能的分类方案,到底哪种分法最好?这就必须定义一个准则函数,聚类问题就变成对这个准则函数求极值的问题。最简单的准则是误差平方和准则,其准则函数定义如下:

(8-33)

其中 c 为聚类数,f i表示第 i 个聚类的样本集合,m i是集合f i中所有样本的中心。显然,使J 最小化的聚类就是最好的聚类。当每类的样本都很密集,而各类之间又有明显的分离,使用这种准则进行聚类可得到最好的结果。而当各类界限不清楚时,利用这种准则得到的聚类结果往往不能令人满意。

( 2 ) Silhouette 值:

采用类间分离度和类内紧致性来评价聚类结果的好坏是常用的方法。如果在样本空间中,各个聚类彼此分隔得比较远,而每个聚类中的样本又彼此靠近,则可以认为聚类效果好。因此,可以用类间距离与类内距离的比值作为衡量聚类结果的标准。基因表达谱的分类有效性分析的另一种方法是采用最小类间距离与类内平均距离的相对差值作为判断依据,其计算公式如下:

(8-34)

其中b(i) 为某类中的样本i到其它类样本的平均距离的最小值,a(i) 为某类中的样本i与类内其它样本的平均距离。S(i) 的值反映了样本i 的分类情况,一般通过某类中所有样本的平均S(i) 值作为判断该类的好坏的标准。

( 3 ) FOM 值:

FOM(figure of merit ,量度优值 ) 法,是一种数据驱动的方法,用于比较来自基于启发式聚类算法的分类质量。本质上属于留一交叉验证方法 (leave-one-out cross validation) ,即在 G 个基因、 n 个条件中保留{1,2,…,e-1,e+1,…,n} 进行聚类分析,留出条件 e 用于验证,聚类后有 k 个类,用

f1, … ,f k表示每一类的基因集合。x ge表示基因 g 在条件 e 下的表达水平,是类f i中的基因在 e 条件下的平均表达水平,则

(8-35)

对 n 个条件分别计算 FOM (e ,k )值,并求和作为聚类方法的评价指标,

(8-36)

FOM 法存在一些应用上的限制,首先是该方法并非对所用的情况都适用,如果所有的实验条件之间是相互独立的,那么取出条件 e 后的 n-1 个条件下的聚类结果就不能对 e 条件有预测效果。但是,在实际情况下, FOM 法对于许多基因表达数据集是可用的,可以应用于时间系列数据、来自不同组织样本的数据集。其次,对于比较具有不同类数目的聚类结果是不合适的。因为 FOM(e,k) 定义为类内方差在所有k 类上的和,随着类数目的增加, FOM 会下降。因此,可以定义调整的 FOM ,将 FOM 除以一个因子,来弥补由于类数目不同而造成的统计偏差,计算公式如下:

(8-37)

( 4 ) Rand 指数:

根据生物学知识对基因的分类或用其它方法形成的聚类结果,称为外部参考分类。比较外部参考分类与当前聚类方法的结果,可以判断该聚类方法的性能。假设外部参考分类集合

,当前聚类的结果为。令 a 是在 U 中分在同一类、同时在 V 中也分在同一类的基因数目, b 是在 U 中属于同一类而在 V 中不属于同一类的基因数目, c 是在 U 中不属于同一类而在 V 中属于同一类的基因数目, d 是在 U 和 V 中都不在同一类中的基因数目, a 和 d 可以解释为一致的,而 b , c 解释为不一致的,则 Rand 指数可以定义为:

(8-38)

如果参考分类与当前分类很吻合,则 RI=1 。

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

基因表达谱测序

基因表达谱测序 背景介绍 基因表达谱分析利用HiSeq 2000高通量测序平台对mRNA进行测序,获得10M读长为49nt的原始reads,每一个reads可以对应到相应的转录本,从而研究基因的表达差异情况。与转录组测序相比,基因表达谱分析要求的读长更短,测序通量更小,仅可用于基因表达差异的研究。该方法具有定量准、可重复性高、检测阈值宽、成本低等特点,能很好的替代以往的数字化表达谱分析。 技术路线

生物信息学分析 送样要求 样品要求 1. 所需Total RNA 的量均不少于 20μg/文库,Total RNA 可以保存在DEPC 处理过的水中、75%的乙醇、异丙醇中,具体以什么方式保存请注明。 2. 如提供实验材料为动物组织材料,样品质量需大于2g ; 3. 如提供实验材料为植物样品,样品质量需大于4g ; 4. 如提供实验材料为培养细胞,请提供1×107培养好的细胞; 5. 如提供实验材料为血液样品,请提供≥2ml 的样品。 我们强烈建议在送样的同时客户做好备份,以备后续实验之用。 样品纯度要求 1. OD 260/OD 280在1.8- 2.0之间,RNA 无降解、28S 和18S 核糖体RNA 条带非常亮且清晰(其

大小决定于用于抽提RNA的物种类型),28S的密度大约是18S的2倍;Agilent 2100检测仪分析RNA完整性数据RIN≥8。 2. 无蛋白质、基因组DNA污染,如有污染请去蛋白并进行DNase I处理。 请提供至少一种样品的凝胶电泳或者Agilent 2100检测仪检测图片,并注明其浓度、体积、OD260/OD280、溶剂名称、制备时间、物种来源以及特别备注。最终以我方定量、质检为准。 样品采集 为了保证提取RNA的完整性,确保后续实验的顺利进行,请务必确保样品的新鲜,对于如何确保样品的新鲜针对不同的样品获取材料的方法如下: 1. 动物组织:从活体上迅速的取下组织(切成黄豆粒大小的块状),每切成一个黄豆粒大小的块状立即放入液氮中,重复上述操作,直至足够提取总RNA的量;准备一个50ml的离心管,做相应的标记(样品名称、编号、客户姓名、时间),最好既在管盖上做好标记,也在管壁上做好相应的标记,先放入液氮中预冷2-3min,拿出离心管(离心管的下部分还是保持在液氮中),打开离心管的盖子,将液氮中黄豆粒大小的块状收集进离心管中。 2. 植物组织: (1)如所采集的是果实、麦穗等体积偏大的样品,收集样品请参照1.动物组织取样方法;(2)如采集的是叶片等体积偏小的样品,请尽量采集嫩叶、幼芽等,每采集一片叶片立即放入液氮中,直至足够提取总RNA的量,后续操作请参照动物组织的采集。 (3)如是植物的花,在采集花骨朵的时候请尽量不要采集到花萼、叶片等,每采集一个花骨朵请立即放入液氮中,直至足够提取总RNA的量;后续操作请参照动物组织的采集。3. 如提供实验材料为菌丝体,请取500μl的菌液于1.5ml离心管中,离心去上清,剩余菌丝体放入液氮或干冰中,请提供不少于5管的菌丝体。 样品运输 从液氮中取出准备好的样品,请立即放入干冰中,并用干冰掩埋好样品。请填写完整订单,放入自封袋中与样品一起邮寄。为防止RNA的降解,请确保干冰的量足够运送到目的地。我们强烈建议在寄送RNA样品时将RNA保存在75%的乙醇或异丙醇中。 如是特殊样品,关于送样量和保存问题请与我们联系沟通,以便双方共同协商解决。 提供结果 根据客户需求,提供不同深度的信息分析结果。

第24章 基因表达谱分析的生物信息学方法思考与练习参考答案

第24章 基因表达谱分析的生物信息学方法 思考与练习参考答案 1.据教材表24–3提供的数据信息可以构建一棵决策树,请利用最大信息增益方法写出如何选出根结点中用于分割的特征。 教材表24-3 天气情况与是否去打球的关系数据集 注:该信息表示根据天气情况决定是否出去打球,数据集共包含14个样本,两个类别信息(Yes 、No ),每个样本包含3 个特征信息(Outlook 、Temp 、Windy )。 解:计算用每一个特征进行分割时所获取的信息增益,取信息增益最大的那个特征作为分割特征,以Outlook 特征为例计算(参照练习图24-1) 练习图24-1 同Outlook 特征进行分割所获得的信息增益 )14 9 log 149145 log 145()(220+-=S H

)5 2 log 5253 log 53()(2211+-=S H 0)4 4 log 44()(212=-=S H )52 log 5253 log 53()(2213+-=S H )(14 5 )(144)(145)(1312111S H S H S H S H ++= infor-gain (Outlook )=)()(10S H S H - 同理,计算其他两个特征的信息增益,最后从三个值中选取最大的一个对应的特征作为根结点的分割特征。 2.请从https://www.doczj.com/doc/7114991934.html,/上下载一原始未经标准化的表达谱数据,并对该数据进行如下分析: (1)对数据进行标准化处理。 (2)对数据进行分类分析。 (3)分别对基因和样本进行聚类分析。 (4)选择特征基因。 (答案略)

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.doczj.com/doc/7114991934.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

寻找差异表达的基因

基因表达谱数据 基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt ”文件中存储,第一列为基因的entrez geneid ,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。 图1 基因表达谱的矩阵表示 寻找差异表达的基因: 原理介绍: 差异表达分析是目前比较常用的识别疾病相关miRNA 以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change 方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change 的计算公式如下: normal Disease x x c Fold = _ 即用疾病样本的表达均值除以正常样本的表达均值。 差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T 检验(T-test )方法来寻找差异表达的miRNA 。T 检验的主要原理为:对每一个miRNA 计算一个T 统计量来衡量疾病与正常情况下miRNA 表达的差异,然后根据t 分布计算显著性p 值来衡量这种差异的显著性,T 统计量计算公式如下: n s n s x x t normal Disease normal Disease miRNA //22+-= 对于得到的显著性p 值,我们需要进行多重检验校正(FDR ),比较常用的是BH 方法(Benjamini and Hochberg, 1995)。

转录组RNAseq术语解释

RNA-Seq名词解释 1.index 测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。 2.碱基质量值 (Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高 表明碱基识别越可靠,碱基测错的可能性越小。 3.Q30 碱基质量值为Q30代表碱基的精确度在99.9%。 4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped) 每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为 公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数, 以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。 5.FC(Fold Change) 即差异表达倍数。 6.FDR(False Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝 的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。 7.P值(P-value) 即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05 为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。 8.可变剪接(Alternative splicing)

转录组测序

真核mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序,既可研究已知基因,亦能发掘新基因,全 面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为:有参考转录组、无参考转录组以及数字基因表达谱(DGE)三大类。 技术参数 案例解析 [案例一] mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种 优势的动态部分同源调控 诺禾致源携手中国农业科学院作物科学研究所,利用转录组测序技术,对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析,发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式,包括加性表达,少部分的基因表现为非加性,基因的非加性表现出非常强的发育时期特异性,与生长势密切相关;miRNA的丰度随着倍性的增加逐渐下降,新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表 达,miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性 非对等杂种优势的分子基础。 [案例二] 磷酸三(2,3-二氯丙基)酯(TDCPP)对四膜虫生长繁殖的 抑制作用与核糖体相关 诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标,为后续研究TDCPP作用其他生物的毒理机制提供了新视角。 [案例三] 转录组揭示寄主植物与宿主之间进行RNA交换的机制 参考文献 菟丝子被称作勒死草,会用被称作吸根的专用器官穿透宿主组织与其建立联系,可以吸取宿主的水份与营养物质,也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究,发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式;两种宿主相比,更多的拟南芥RNA被转移到菟丝子植物之中,而且菟丝子与拟南芥之间较自由的交换,可表明调节菟丝子吸根选择性的机制可能是宿主特异性的,从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的 等级聚类分析和两者的关联 图2 显著富集的KEGG通路 图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析 样品要求文库类型测序策略数据量类型 分析内容 项目周期 真核有参转录组测序 真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱(DGE) HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库; 链特异性转录组文库 40天50天30天 35天(有参)45天(无参) RNA样品总量≥1.5 μg; RNA样品浓度≥50 ng/μL 参考基因组比对 新转录本预测可变剪切分析SNP/InDel分析 基因表达水平分析RNA-seq整体质量评估 转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示 参考转录组拼接 转录本/Unigene长度统计 基因功能注释NR,NT,Swiss Prot GO,KEGG,KOG Protein Family CDS预测分析SNP/SSR分析

基因表达谱芯片数据分析及其Bioconductor实现

基因表达谱芯片数据分析及其Bioconductor实现 1.表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大量DNA片段或寡核昔酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片,待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧光,然后与包含上千个基因的DNA芯片进行杂交反应30min~20h后,将芯片上未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点的荧光强度,从而推算出待测样品中各种基因的表达水平。用于硏究基因表达的芯片可以有两种:①cDNA芯片;② 寡核昔酸芯片。 cDNA芯片技术及载有较长片段的寡核昔酸芯片采用双色荧光系统:U前常用Cy3—dUTP (绿色)标记对照组mRNA, Cy5—dUTP (红色)标记样品组mRNAUl。用不同波长的荧光扫描芯片,将扫描所得每一点荧光信号值自动输入计?算机并进行信息处理,给出每个点在不同波长下的荧光强度值及其比值(ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况⑵。 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究:①同一个体在同一时间里,不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核昔酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以基因芯片一次反应儿乎就能够分析整个人的基因⑶。②同一个体在不同时间里,相同基因的表达差异。 ③不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本,同时筛选不同样本(如肿瘤组织、癌前病变和正常组织)之间差异表达的基因,这样可以避免了芯片间的变异造成的误差⑷。张辛燕⑸ 等将512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵巢癌相关基因。Lowe⑹等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 奠定基础。 2.表达谱芯片的数据处理技术

基因表达谱聚类

基因表达谱聚类分析 [ 文章来源:| 文章作者:| 发布时间:2006-12-21| 字体:[大中小] 学习过程可以采用从全局到局部的策略。采取这种策略时,学习初期可设定较大的交互作用半径R ,随着学习过程的不断推进,逐步减小R ,直至不考虑对邻近单元的影响。邻域的形状可以是正方形或者圆形。 KFM 的聚类结果与K 均值相似,它的优点是自动提取样本数据中的信息,同时也是一种全局的决策方法,能避免陷入局部最小,缺点在于必须实现人为设定类的数目与学习参数,而且学习时间较长。KFM 方法克服了K- 均值聚类的一些缺点:它应用类间的全局关系,能提供大数据集内相似性关系的综合看法,便于研究数据变量值的分布及发现类结构。而且,它具有更稳健更准确的特点,对噪声稳定,一般不依赖于数据分布的形状。 8.4.2.5 其它聚类方法 聚类方法是数据挖掘中的基本方法,数据挖掘的方法很多,在基因表达谱的分析中,除了以上常用方法外,还有一些其它的方法。由于对聚类结果尚没有一种有效的方法进行评价,尤其是对聚类结果的进一步生物学知识发现尚没有新的分析思路和成功应用,因此,科学家们在不断地研究一些新方法。这些方法有不同的原理,能够提取不同数据特征,有可能对具体的数据得到更有意义的结果,发现更多的生物学知识。这里,简单介绍这些方法的原理,更详细的介绍请参看相关文献。 (1)模糊聚类分析方法:这是一种模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的程度。基本思路是计算两两基因表达谱之间的相似性程度,构建模糊相似矩阵,利用模糊数学中的传递闭包计算方法得到模糊等价矩阵,选择不同的置信水平从模糊等价矩阵中构建动态聚类图。对于特定的置信水平,可以实现对基因表达谱的分类。该方法的优点是利用了模糊数学中的隶属度概念,能够更好的反映基因表达谱之间的相互关系,而且它是一种全局的优化方法,与向量的顺序无关。 (2)模糊C均值算法:该方法同样将模糊数学中的隶属度概念引入到常用的K 均值聚类方法中。对于K 均值算法,一个基因表达谱所属的类只有一个,因此,它与各类别的关系要么是 1 ,要么是0 ,即属于或不属于某一类。而对于模糊 C 均值法,一个基因表达谱是否属于某一类,是以隶属度来确定第i 个样本属于第j 类的可能性。最终的聚类结果取决于分析的目的,可以根据最大隶属度来确定基因表达谱的分类,即一个基因表达谱只属于一类;但往往是确定隶属度的阈值,只要大于该阈值,就可以将基因表达谱划分为该类,这样的划分结果是一个基因表达谱可以属于多个类,这也是可以被生物学家接受的。模糊 C 均值法与K 均值法的实现过程基本相同,所不同的是对于

关于基因数据的统计学研究

龙源期刊网 https://www.doczj.com/doc/7114991934.html, 关于基因数据的统计学研究 作者:张燕 来源:《现代职业教育·高职高专》2018年第06期 [摘要] 贝叶斯网络有着很好的理论知识和清楚的知识表达形式,是统计学中不确定性研 究的一种重要方法,在数据挖掘中有着重要作用。将其引入基因数据的分析中,能较好地构建网络模型,分析各基因间的相互作用与影响,可广泛应用于生物学和肿瘤学的研究,观察疾病所引起的基因表达变化,并找出重要作用的变量基因。 [关键词] 基因数据;统计学;结构学习 [中图分类号] G648 [文献标志码] A [文章编号] 2096-0603(2018)16-0137-01 随着人类基因组序列草图的完成,有关功能基因组的研究在生命科学领域中占据越来越重要的地位。阐明基因选择性表达所依赖的调控信息及其相互作用的分子机制,成为揭示生命现象本质的核心问题,是功能组研究的重要内容。随着基因组学研究的深入展开,基因的表达调控研究已经从单个基因、线性的调控拓展到立体层面上多基因、基因簇乃至整个基因组的调控网络。如何有效地利用已有的基因组学数据,充分整合多学科的思路,建立新的试验系统和技术体系,阐明基因组表达的调控网络,分析基因之间的相互制约关系,已经成为功能基因组学领域内国际竞争的焦点。 贝叶斯网络方法将概率理论知识与图论结合,其有图形化表示、因果关系清晰以及不确定性推理等优点,本文将贝叶斯网络引入基因数据中并进行分析,从概率角度描述了各基因间的依赖关系,从而阐明了整个基因组之间的调控网络。 一、对基因数据的预处理 贝叶斯网络的结构学习是一个NP-Hard问题,而构建网络结构最常见的方法是在结点变量的顺序已经确定的情况下,采用局部搜索算法。在基因表达谱数据中,由于没有任何先验知识,本实验中对网络的构建使用的是K2算法,而K2算法需要预先知道网络变量的先后顺序,本文将重点介绍决策树算法,将ID3算法用于确定各结点的顺序。 二、结构学习 在建模之前需要完成的最后一步工作是需要把样本数据分成训练集和检验集,分别用于训练检验和模型检验。数据经过离散化之后,除去预留几个样本的各基因表达情况用作模型验证,其余的样本作为训练集导入实验软件matlab中。 在网络拓扑结构的构建过程中,最大父结点个数的设置问题直接影响了所得网络的规模与结构。随着父结点个数越多,所得的网络结构就越复杂,虽然能更多地揭示各结点之间的相互

表达谱

对于基因表达谱数据的分析是生物信息学的研究热点和难点。转化为数学问题,分析任务是从数据矩阵 M 中找出显著性结构,结构类型包括全局模型 (model) 和局部模式 (pattern) 。对基因表达谱数据的分析是数据挖掘问题,所采用的方法包括通过可视化进行探索性数据分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分类、聚类、回归和机器学习等。 基因表达谱分析所采用的常用方法是聚类,其目的就是将基因分组。从数学的角度,聚类得到的基因分组,一般是组内各成员在数学特征上彼此相似,但与其它组中的成员不同。从生物学的角度,聚类分析方法所隐含的生物学意义或基本假设是,组内基因的表达谱相似,它们可能有相似的功能。然而,产物有相同功能的编码基因(例如对其它蛋白质有磷酸化作用),不一定共享相似的转录模式。相反,有不同功能的基因可能因为巧合或随机扰动而有相似的表达谱。尽管有许多意外的情况存在,大量功能相关的基因的确在相关的一组条件下有非常相似的表达谱,特别是被共同的转录因子共调控的基因,或者产物构成同一个蛋白复合体,或者参与相同的调控路径。因此,在具体的应用中,可以根据对相似表达谱的基因进行聚类,从而指派未知基因的功能。 聚类分析是模式识别和数据挖掘中普遍使用的一种方法,是基于数据的知识发现的有效方法,特别适用于模式分类数不知道的情况。聚类分析是一种无监督学习方法,不需要任何先验领域知识,它根据数学特征提取分类标准,对数据进行分类,这种数学特征的例子有统计平均值、相关系数、协方差矩阵的本征值及本征向量等。聚类分析在基因表达数据分析中应用得很多,主要有层次聚类、 K 均值、自组织特征映射网络等。本节将介绍基因表达数据分析中常用的聚类方法及与此相关的内容。 8.4.1 相似性度量函数 对基因表达谱进行聚类分析之前,必须首先确定反映不同基因表达谱相似程度的度量函数,根据该函数可以将相似程度高的基因分为一类。在实际计算中,还可以用距离代替相似的概念,相似性度量被转化为两个基因表达谱之间的距离。距离越小,表达模式越相近;反之,则表达模式差异大。 常见的相似性度量有距离、点积、相关系数( correlation coefficient )、互信息( mutual information )等。假设两个基因表达谱分别为X = (x 1 ,x 2 ,…,x m )和Y = (y 1 ,y 2 ,…, y m ) , 距离函数 d( X ,Y ) 必须满足如下条件: d( X ,Y ) ≧ 0 d( X ,Y ) = d( Y ,X ) d( X ,Y ) = 0 if X = Y

基因表达谱数据分析技术

第18卷第6期微阵列技术[1-3]的到来对生物学和医学来说是一场 革命,通过它可以同时观测成千上万个基因的表达水平,从而能够在基因组水平上以系统的、 全局的观念去研究生命现象及其本质。还可以根据基因在不同条件下表达的差异性来进行复杂疾病诊断、药物筛选、个性化治疗、基因功能发现、农作物优育和优选、环境检测和防治、食品卫生监督及司法鉴定等,因此对基因表达谱的研究具有重要的理论价值和应用意义。微阵列基因表达数据具有维数高、样本小、非线性的特点,这对一些传统的机器学习方法提出了新的挑战,对其数据的分析已成为生物信息学研究的焦点。 1基因表达数据采集 基因表达数据采集可分为三个步骤:微阵列设计、 图像分析和数据获取、过滤、标准化。基因芯片(gene chip ),简称为微阵列,就是指固着在载体上的高密度 DNA 微点阵,具体地说就是将靶基因或寡核苷酸片段有序地、高密度排列在玻璃、硅等载体上。mRNA (信使核糖核酸)的表达水平的获得是通过选取来自不同状态的样本(如正常组织与肿瘤组织、不同发育阶段组织,或用药之前与用药之后组织等,一种称为实验样本,另外一种称为参考样本),在逆转录过程中,实验样本和参考样本RNA (核糖核酸)分别用不同的红、绿荧光染料去标记,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图像,通过专用的图像分析软件,可获得微阵列上每个点的红、绿荧光强度(Cy5和Cy3),其比值(Cy5/Cy3)表示该基因在实验样本中的表达水平。在通常情况下,考虑Cy5和Cy3的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的Cy5或Cy3数值比相应的背景数值低,则该基因的表达水平无法确定。为了方便数据处理,常 孟令梅等:一种基于DCT 变换的图像认证算法文章编号:1005-1228(2010)06-0017-03 基因表达谱数据分析技术 刘 玲 (江苏财经职业技术学院,江苏淮安 223001) 摘 要:人类基因组计划的研究已进入后基因组时代,后基因组时代研究的焦点已经从测序转向功能研究,主要采用无监 督和有监督技术来分析基因表达谱和识别基因功能,通过基因转录调控网络分析细胞内基因之间的相互作用关系的整体表示,说明生命功能在基因表达层面的展现,对目前基因表达谱数据分析技术及它们的发展,进行了综述性的研究,分析了它们的优缺点,提出了解决问题的思路和方法,为基因表达谱的进一步研究提供了新的途径。关键词:基因表达谱;分类;无监督;有监督;基因调控网络中图分类号:Q81;TP181 文献标识码:A Gene Expression Data Analysis LIU Ling (Jiangsu Vocational College of Finance &Econimics ,huai ’an 223001,China ) Abstract :As the work of sequencing the genome of the human has been fully finished,the post-genomic era has begun.Scientists are turning their focus toward identifying gene function from sequencing.Clustering technology,as one of the important tools of analyzing gene expression data and identifying gene function,has been used widely.Transcriptive regulatory networks are the global representation of multiple interactions between genes and their products ,which can help us understand the cell ’s function at the level of gene expression In this paper we discuss main clustering technology about gene expression data at present,analyze their advantages and disadvantages ,present the methods to solve the problems and given approaches to study gene expression data. Key words:gene expression profile ; classification ;gene regulatory network Vol.18No.6Dec 2010 第18卷第6期2010年12月 电脑与信息技术Computer and Information Technology 收稿日期: 2010-06-09项目资助: 江苏省淮安市科技发展计划项目(HAG08015)作者简介: 刘玲(1964-),山东胶州人,副教授,硕士,主要研究方向:生物信息。

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析(Serial analysis of gene expression,SAGE) 基因表达系列分析(SAGE)是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术,也是一种高通量的功能基因组研究方法,它可以同时将不同基因的表达情况进行量化研究(Velculescu et al.,1995)。SAGE的基本原理是:每一条mRNA序列都可以用它包含的9bp的小片段(TAG)代替,因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo(dT)引物将mRNA反转录成双链cDNA,然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp,因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来,平均分成2份。这2份cDNA分别跟2个接头连接,2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶,其识别位点不对称,切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

基于RNA-Seq技术的国产沉香转录组测序及数字基因表达谱分析

基于RNA-Seq技术的国产沉香转录组测序及数字基因表达谱分 析 国产沉香是我国传统名贵药材,而白木香是其唯一植物资源,健康的白木香不产沉香,为满足对沉香的消费需求,人们对人工结香技术进行了研究,发现任何对白木香树干的伤害均能诱导产生沉香物质,而这些伤害是怎样诱导结香的,其中的结香机理是怎样的,相关的研究报道却很少。本项目对白木香木材组织总RNA的提取方法进行了研究,利用第二代高通量测序技术对国产沉香的转录组进行测序,并对国产沉香各组织进行了数字基因表达谱分析,筛选各组织表达有差异的基因,从倍半萜合成代谢途径和伤害防御反应两方面研究白木香产沉香的机理。 获得结果如下:(1)确定白木香木材组织总RNA的最佳提取方法为改良异硫 (2)氰酸胍-CTAB法,并用该方法成功提取白木香各组织总RNA用于转录组测序。 本研究进行的转录组测序结果理想,测序质量较高,Q20值高达97.45%,组装后获得平均长度为702nt,N50值为1120的83,467条Unigenes序列,丰富了白木香产沉香的转录组信息。 经过blast比对,共50,565条Unigenes序列得到基因功能注释,占所有Unigenes总量的60.58%,其中各有171、33、1352条Unigenes序列分别被Terpenoid backbone biosynthesis(ko00900)、Sesquiterpenoid and triterpenoidbiosynthesis(ko00909)和Plant-pathogen interaction(ko03040)Pathway注释,为研究白木香倍半萜代谢途径和白木香伤害防御反应机制提供序列信息。(3)利用RNA-Seq技术对国产沉香各组织进行数字基因表达谱分析,各样品均获得超过7M的clean reads,约80%以上的序列能比对上参考转录组数据。

基因表达谱公共数据库

基因表达谱公共数据库(2010-04-17 11:17:21)转载▼ 标签:教育分类:系统生物学 gene expression profiles: NCBI: GEO EBI ArrayExpress和SMD 功能基因组相关信息分析 功能基因组学是后基因组研究的核心内容,它强调发展和应用整体的(基因组水平或系统水平)实验方法分析基因组序列信息阐明基因功能,特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究,基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入,大量的数据不断涌现,生物信息学将在功能基因组学研究中的扮演关键角色。 7.1 大规模基因表达谱分析 随着人类基因组测序逐渐接近完成,科学家发现即使获得了完整基因图谱,对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的,等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA 序列测定艰巨得多的任务,因为基因表达是依赖于许多因素的动态过程。 国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术,即核酸层次上的cDNA 芯片(cDNA微阵列)技术和蛋白质层次上的二维凝胶电泳和测序质谱技术,即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达,检测许多基因的转录水平。对大规模基因表达谱的分析存在新的方法学问题,它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题,而是基因表达网络,因此需要发展新的方法和工具。同时,在芯片等的设计上,也需要从理论到软件的支持 下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。 1.实验室信息管理系统 cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为,这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后,收集到的数据必须以某种方式保存,以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。 该系统除用来定位和跟踪材料来源(例如,克隆,微阵列,探针)外,还必须管理实验前后大量的数据。此外,还包括实验室设备软件系统,如斯坦福大学Brown实验室免费的控制自制机器点样设备软件(https://www.doczj.com/doc/7114991934.html,/pbrown) 芯片图象处理已有各种软件工具,基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法,许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序,deArray,可免费获取。 美国国立卫生研究院人类基因组研究所(NHGRI)开发的免费的cDNA芯片数据管理分析系统ArrayDB,涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。 ArrayDB ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面,包括数据管理、用户介面、机器自动点样、扫描和图象处理。

相关主题
文本预览
相关文档 最新文档