当前位置:文档之家› 新一代DNA测序技术总览

新一代DNA测序技术总览

新一代DNA测序技术总览
新一代DNA测序技术总览

作者:尹银亮、陈会平、毛良伟译来源:生物谷

原文刊登于《分析化学》综述Analytical Chemistry

原文标题:Landscape of Next-Generation Sequencing Technologies

索引信息:https://www.doczj.com/doc/2f10783008.html,/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro

译者资料:

尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@https://www.doczj.com/doc/2f10783008.html,

陈会平,毛良伟,武汉华大基因科技有限公司

【内容】

第二代测序

第二代测序成本

第三代测序技术

单分子测序法

边连接边测序法

边合成边测序法

纳米孔测序技术

蛋白质纳米孔测序法

固态纳米孔测序法

长距离阅读DNA的扩展方法

总结性评论

DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。

第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌

体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。

后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组

复合序列就是大体上由细管电泳测序系统来测定完成的,不仅耗资庞大,花费人力无数,而且历时超过十年。尽管发表于2001年的基因组仍然处于有待完善的过程中,但其作为基因组的"参照"序列而被采用,已成为生命科学转化为实际应用的基础,并继续对研究基因型-表现型的关系发挥着重要作用。从迄今为止发表的(和未发表的)文献报道来看,要对人类复杂疾病进深入的有医疗意义的探讨,非常有必要去获得其他类型的"个人"基因组数据,如,特定组织mRNA表达概况,mRNA测序,基因调控区域的个性化分析,表观遗传调控的概况,以高质量和大范围的染色体图谱分析来归类重要的染色体删缺,插入和重排等等。为成百上千的单个个人,把他们各自的完整基因组学数据与他们完整复杂的病史对应起来,将带我们进入个体化医学的时代。大规模测序中心正完成新一代的测序仪器的转型,联合基因组研究所(the Joint Genome Institute, JGI)已经淘汰了所有的桑格测序仪。而另一方面,除非小型的第二代测序仪能在清楚读出每个碱基上的成本和测序读长上胜过毛细管电泳测序系统,毛细管测序系统仍将会大量应用于特定区域测序,如定量基因表达,生物标志物鉴定和生物学途径分析等专向性研究。

第二代测序

关于"下一代"是什么,或更确切的说,第二代测序技术是什么,已有几篇综述出现了。我们提议,将第二代技术定义为:是同步化三磷酸核苷酸的洗脱方法和同步化的光学检测方法的结合。但这种定义不是很严格。因为有几种算作是第三代测序的实时合成测序的方法,也依赖于光学检测。如太平洋生物科学公司(Pacific Biosciences')的单DNA聚合酶测序法就是突出例子。第二代测序技术靠的是连接测序,或者合成测序,包括焦磷酸测序和可逆性的链终止法。由罗氏(Roche),以鲁米那(Illumina), 赫利克斯(Helicos)和生命技术公司(Life Technologies)以商业化提供的仪器,以短的连续性的片段序列和测序阅读长度的形式,每周输出数十亿碱基对(Gbp)的DNA序列。对这种基于合成测序,也就是由一种DNA 聚合酶或连接酶主导化学过程的第二代测序方法,关于它们所面临的挑战和它们这些酶学方法的优势,另有一篇综述已做了详细的介绍。

表1. 第一代和第二代测序技术

第二代测序成本

在过去的几年里,主导第二代测序仪市场的几家公司,纷纷依靠已知的参照基因组(通过第一代桑格测序方法完成的人类基因组),以更好更经济的第二代测序方法生产出了拼接好的人类全基因组序列。同当年以ABI公司的桑格毛细管电泳测序仪产生出克莱格.文特尔(J.Craig Venter)的基因组序列草图所花的成本相比, 由罗氏(Roche)的454基因组测序仪FLX,以鲁米那(Illumina)的基因组分析仪,和赫利克斯(Helicos)的Heliscope测序仪得到原始数据所花成本,大体上分别下降了1个, 2个和3个数量级。不过,在这些报道中,只是计入了耗材和试剂成本。这些新的"大规模平行"测序仪需要大量的在仪器设备上投资,因为许多这样的高通量仪器价格都在每台50-100万美元之间。而操作这些仪器和进行信息学分析以拼接序列的人力花费也应计入总的测序成本。到本文发表之前,以鲁米那公司的仪器在第二代测序市场占据60%的份额,居于领先地位。而在剩余市场部分中,生命技术公司的Solid系统和罗氏各自分得近19%。以鲁米那公司的全基因组测序服务,每测一个全基因组费用为19500美元,比起2008年要测定一个人的全基因组所花的试剂的成本250000美元(或者是每个测好的碱基0.02美分)已经少得多,而比1996年的成本更是少了几个数量级,因为当时的第一代测序成本为每个碱基一美元。为减少成本,采用可逆末端终止物的合成测序法的以鲁米那公司,最近新推出了较小的,较便宜的Miseq测序平台,承诺可以在27个小时内以150的测序阅读长度来产出超过1GB(10亿个碱基)的数据。这种更袖珍而多功能的测序仪是专门为应对毛细管电泳测序在普通实验中的应用而设计的,如克隆鉴定,扩增序列测序,小基因组测序等。另一款规模较大的是,生命技术公司的5500xl系列仪器,以连接测序的方法,每七天能总共测出300亿碱基的序列。台式测序仪的市场里还有Ion Torrent,是生命技术公司的一个分部,正在开发第三代技术,最近刚上市了一款"个人基因仪器"(Personal Gene Machine)和"Ion Express触摸式模板制备系统"(Ion Express One Touch template preparation system)。而罗氏的454是以焦磷酸测序法,以荧光酶标记的微粒来检测单个碱基的延伸,像是对1996年同步地对DNA四种碱基测序方法的优化。这种发出光线的焦磷酸测序法,不需要用多个荧光团,也不需要激光或昂贵的光学滤片,大大降低了仪器的成本。罗氏的454GLXFlex Titanium系列,一台价值50万美元的仪器,每天可以生产高质量的4-6亿个碱基校读数据。其新的目标是要达到超过800碱基校读的测序读长。价值10万美元的454 GS Junior小型测序仪,于2009年推出市场,也是以台式仪的小型研究项目为目标,能在10个小时内以400碱基的读长完成35Mb(35兆碱基)的数据。"台式"新一代技术的发展,力求大大降低成本和仪器体积和简化测序过程,并持续提高测序能力,测序读长和精确度,从而在台式测序的市场上对第一代桑格毛细管测序构成直接挑战(毛细管测序的最后生存空间)。

为了显示全基因组测序的真实成本,美国国立人类基因组学研究所(National Human Genome Institute, NIGRI)把从他们的测序中心得到的测序成本数据进行了编辑整理,以便准确地估计出测定一个人类全基因组序列的全部成本。他们的计算中计入了人力花费,测序仪的3年折旧费,数据处理花费和样品准备过程的花费。图1显示了自2001年人类基因组最初草图发表后,每测序一套相当于人类单倍体基因组所花费的相应成本。在2008年所见的测序成本急降正是由第一代桑格毛细管测序向安装于各个测序中心的第二代测序平台转变的结果(如454,Illumina,SOLiD). 第二代测序技术产生出彼此重叠不高的相邻测序阅读

片段,需要进行较高深度测序后再做序列拼接。不过,它们的高数据产出量降低了耗材成本和测序运行的次数。

技术研发的成本和数据分析的成本常常从测序总成本计算中本忽略了。通常,这些成本比建立起第二代,第三代测序技术高得多。例如,图1中的由第二代测序技术而来的数据(2008年之后)是重测序工作的结果,其中,参照基因组被用

于指导序列拼接过程。假如从头测序只以桑格毛细管电泳方法来进行,那么在此阶段,要评估只靠第二代或第三代测序技术来进行一个人类基因组的测序或从头拼接的操作可行性和相关成本,实际上是很困难的。显而易见的是,现在最大的成本障碍在于那些用于精确排列的光学检测系统和下游的数据分析所需的复杂

硬件系统。

第三代测序技术

以将人类基因组测序的成本降到1000美元以下为终极目标,美国国立健康研究院/美国国立人类基因组学研究所(NIH/NIGRI)资助了几个小组以改进第二代

测序技术或研发其他的测序方法,包括扫描隧道电子显微镜(Scanning Tunneling Electron Microscope,TEM),荧光共振能量转换(FluorescenceResonanceEnergyTransfer,FRET),单分子检测

(Single-moleculeDetection)和蛋白质纳米孔(Protein Nonopores)的应用。

有两种处于领先地位的第三代测序技术(太平洋生物科学公司和全基因组学公司)仍然依赖于荧光活动的光学检测,但其目的在于提高测序速度和数据产出量(见表格2)。在另一方面,Ion Torrent's 技术公司应用了电子敏感场效应晶体管(Ion-sensitive Field Effect Transitor, ISFETs),以摒弃测序过程中对光学检测的依赖。而牛津纳米孔公司(Oxford Nanopore)的纳米孔技术也是致力于取消光学设施和无需进行DNA扩增,他们以检测跨越纳米孔的导电性变化来进行测序。由霍尔康分子和ZS遗传学公司(Halcyon Molecular and ZS Genetics)所使用的纳米光学扫描隧道电子显微镜技术需要价值百万美元的设备,迄今为止,他们的数据产出量仍然有限,但很有可能阅读出长达数千碱基的相邻DNA片段。

还有,一些仍然基于光学检测的测序方法也还在研发之中,将可以做到前所未有的长距离基因定位,这对于将个人基因组和癌症基因组进行精确拼接是非常必要的。现在,我们来详细审视第二代和第三代测序技术,介绍每一种技术的长处和缺点。

图1. 测定一个人的全基因组序列所需的成本---根据由美国国立基因组学研究所资助的大规模DNA测序中心所提供的数据而做的估计

单分子测序

太平洋生物科学公司太平洋生物科学公司(PacBio)率先研发出一种可靠的基于实时单分子测序技术的第三代测序平台。他们的过程是直接测由DNA聚合酶将荧光标记的核苷酸掺入互补测序模板。该技术的核心是一个零点启动模式的波导(Zero-mode Wavelength,ZMW)纳米结构的密集排列,这一排列阵可以进行单个荧光分子的光学审视。在过去,零点启动模式波导结构被用于从大量高密度的分子中分辨出单一的荧光分子,还没有被用于大量平行分析的操作。为使之用于大量平行分析和数据输出通量(测序数据生成能力),太平洋生物科学公司开发出一种方法,能有效地将零点启动模式波导结构排到表面上,他们采用了电子束光刻技术(Electron beam Lithography)和紫外光电子束光刻技术(Ultraviolet Photo lithography)以及高度平行的共焦成像系统,这样可以对零点启动模式纳米结构中的荧光标记分子进行高灵敏度和高分辨率的探测,并采用了一个沉重的稳定平台来确保良好的光学聚焦效果。

零点启动模式排列共振和检测模式确立后,主要的技术难点就转移到如何将单个的有功能的DNA聚合酶分子固定到每个零点启动模式阵列的底部,完成之后,才可以检测荧光标记的核苷酸底物。这一过程份是分两步来进行的:第一,一套

荧光标记的脱氧核糖核苷5磷酸(4种)底物被合成,每种碱基可以以波谱形式被彼此分辨出来,并且不会降低DNA聚合酶的活性;第二,需要对零点启动模

式阵列的表面进行处理,以对DNA聚合酶进行选择性地定位。零点启动模式阵

列是由一个熔铸的硅胶底层和一个铝质的表层构成,所有的零点启动模式纳米结构被固定于其中。由于铝质层是乙烯磷酸酯(Polyvinylphosphonic Acid, PVPA)的衍生物,蛋白质对铝质层的吸附性大大降低,而对阵列的玻璃底层的吸附则不受影响。将这种化学修饰和高度平行的零点启动模式阵列技术结合起来,太平洋生物科学公司推出了一套高读长(达到1000碱基),四色荧光示踪的实时单分子(Single-molecule Real-time, SMRT)测序技术。但由于将DNA聚合酶固定到每个阵列的底部的随机性,造成了其测序通量的局限性。在一份发表的研究论文中报道,大约只有三分之一的零点启动模式阵列中含有一个单一的DNA聚合酶分子,该聚合酶分子具有活性能产生一个完整长度的测序阅读。图2描绘了在这篇要文中所采用的四色实时单分子测序的策略。

继这项概念证明性的研究之后,太平洋生物科学公司又对测序模板进行了改进---他们创造了被称为实时单分子测序铃的模板(SMRTbell template)。这种实时

单分子测序铃式模板,通过将一个通用的发夹环连到被测序双链片段的两端,可以对正链和反义链同时进行测序。因为不需要进行模板扩增,所以样品制备的时间得以缩短,而且很广泛长度范围的DNA片段都可用来作为测序模板。还有,

实时单分子测序铃式模板的应用还提高了测序和对单核苷酸多态性检测的准确性。

太平洋生物科学公司现在商业化提供PacBio RS测序仪系统。这种仪器的耗材包括一次性使用的零点启动模式阵列(被称为实时单分子测序芯片,SMRT cells),一套含有150000个零点启动模式阵列和制备实时单分子测序铃式模板的试剂盒。最近,这种PacBio RS测序仪用于在对海地爆发的霍乱研究的五种霍乱弧菌(Vibrio Cholerae)菌株的快速基因分型中。对5中菌株的平均测序读长为

700-1000碱基,平均测序覆盖深度为28到60倍,测序准确度一次性达标率平均为81-83%。报道中还显示,对3种菌株的一小部分测序运行的测序读长接近到3000碱基。

图2. 太平洋生物科学公司(PacBio's)实时单分子测序方案示意图。A. 单个零点启动模式波导纳米结构的侧面图,每个纳米结构含一个DNA聚合酶分子,固

定于底部的玻璃面上。波导纳米结构和共焦成像系统确保只对底部进行荧光检测。

B. 显示了荧光标记的核苷酸底物掺入测序模板的过程。相应的瞬时荧光探测分为5个步骤。

除测序外,实时单分子探测技术在其他方面的应用也在研发之中。太平洋生物科学公司以其单分子检测技术增进了遗传学研究数据的可靠性,他们将由DNA聚合酶反应得来的数据和DNA甲基化模式对应起来。他们已具备能够将mRNA链测序到密码子水平的能力,简单而言,他们将每个零点启动模式阵列底部的DNA 聚合酶换成了在mRNA链上进行翻译的核糖体,这样就能够监控每个荧光标记的tRNA分子的掺入。

边连接边测序法

全基因组学公司(Complete Genomics)全基因组学公司的测序平台是以杂交和连接反应为核心的。当通过杂交和连接进行测序的方法出现以后,全基因组学公司推出了新的样品处理方法和纳米阵列平台。基因组DNA首先经过超声处理,再加上一些接头,然后模板环化,酶切。最后产生大约400个碱基的环化的测序片段,每个片段内含有4个明确的接头位点。环化片段用Φ29聚合酶扩增2个数量级。一个环化片段所产生的扩增产物称为DNA纳米球(DAN nanoball, DNB)。纳米球被选择性地连接到六甲基二硅氮烷处理的硅芯片上。图3A描述了DNA纳米球阵列的设计。

表2. 新一代的测序技术

纳米球通过增加杂交位点的数量而增强了信号强度。DNA纳米球的大小与芯片上连接位点的大小相同,因而导致每个位点连接一个DNA纳米球。由于芯片上的位点大致彼此相隔1微米,所以有多达30亿的DNA纳米球可固定到宽1英寸长3英寸的硅芯片上。除了增加每张芯片上的测序片段的数量外,DNA纳米球的大小和间隔使得检测器像素使用最大化。与另外的二代测序技术比较,这种杂交芯片降低试剂耗费但增加通量或数据产出。

一旦DNA纳米球阵列芯片形成,可运用40个普通探针,联同标准锚定序列和延伸锚定序列进行杂交和连接检测。这40个普通探针分为两组,一组用于检测接头位点的5'端,一组检测接头位点的3'端。每组有5型,每型有4种普通探针。每一探针长9个碱基。探针特点见图3B。标准锚定序列直接与接头的5'或3'端连接,随后普通探针进行杂交和连接。延伸的锚定序列由兼并和标准锚定序列连接而成。这种组合的探针锚定序列连接方法(combinatorial probe-anchor ligation, cPAL)使序列读长由5个碱基增加到10个碱基,从而导致每个DNA纳米球有62到70个碱基被测序。图3B显示了标准和延伸锚定序列的结构。

图3. 完整基因组学公司的DNB阵列生产和cPAL技术的方案示意图。A.待测片段的设计,DNA纳米球的合成,用来放置纳米球规则排列的纳米阵列---这些可以显示DNA纳米球阵列的形成过程;B. 图示:用对应于一个独特接头位点的5个碱基的一组普通探针进行测序过程。图中也显示了标准锚定序列和延伸锚定序列。

每进行一个杂交和连接循环就要对带有DNA纳米球的芯片进行荧光成像,然后用甲酰胺溶液对DNA纳米球进行重建。这种循环被重复直到全部组合的探针和锚定序列被检测。这种方式减少了试剂消耗并去除了潜在的累积错误,而这样的错误可在别的测序技术中出现。

全基因组学公司通过对3个基因组重测序展示了他们的DNA纳米球阵列和组合的探针锚定序列连接技术,且平均每个基因组花费试剂4400美元。这3个基因组结果随后与以前的测序结果进行了比较。测序深度是45X到87X,基因组覆盖度是86%到95%。显然这种技术与Sanger/CE和第二代测序技术比较可大大增加了通量,但它也有几个不足。首先,环化片段的产生会导致基因组某些区域没有被充分显现,这样会导致后续的基因组组装工作并不完整。再者,环化测序片段的大小(~400碱基)以及非常短的读长(~10碱基)妨碍了对基因组完全的和精准的组装,因为这些环化片段常常可能要比一些长的重复区域短。

在全基因组学公司的概念证明性的研究发表5个月后,第一个在外部运用全基因组学公司测序技术的研究就出现了。美国华盛顿州西雅图的一个小组研究了一家四口的遗传差异。在这一研究中,基因组测序被用于确定导致两种罕见孟德尔遗传病, Miller综合征和原发性纤毛运动障碍(primary ciliary dyskinesia)的四种候选基因。研究对象是一对父母和同时患有这两种病的两个孩子。这项研究突出地显示了家庭中全基因组测序在确定孟德尔性状时的优势。能确定传代模式大大地缩小了遗传搜索范围和提高了测序精度。对整个家庭测序,而不只是两个患病孩子的基因组,大大地减少了假阳性的候选基因数量,使之由34个缩小到仅仅4个。

仅仅一个月后,第二个在外部运用该测序技术的研究就由基因特克公司(Genetech)的一个小组发表了。此项研究对一名有15年吸烟史的51岁高加索男性肺癌患者进行了分析,主要是比较原发性肺癌细胞和癌旁正常组织的基因组差别。他们发现了50000个单碱基突变,其中有530个是以前报道过的。通过全基因组分析对癌基因之外的大量单核苷酸突变和染色体结构变异的阐明,为充分理解原发性肺癌的发生机理和治疗带来了曙光。

第三个应用是来自达纳斯的德克萨斯大学西南医学中心一个研究小组,他们对一个患谷胆固醇症(高胆固醇血症)的11个月女孩进行了全基因组测序。该女孩经过系列的血液实验分析和选择性的基因测序,仍不能得到合理诊断。通过将其父母的基因组和一组对照基因组进行比较,发现了导致该谷胆固醇症的致病基因和相应突变。最后发现,是因为其大量的母乳喂养使该患儿血液中植物胆固醇水平低而导致标准血液检测失败。这一研究表明,复杂的环境因素会影响常规的标准检测,而全基因组测序对有效诊断具有重要意义。

边合成边测序法

边合成边测序思路的出现已经有些时日了,它是二代测序技术的基础,如454测序平台和Illumina测序系统都是建立在它的基础之上。这些方法与第一代测序技术比较增加了通量,然而光学成像系统需要检测每一个测序步骤。因为复杂的

光学系统将增加测序系统的成本,所以下一步要做的是寻找一种弃用光学系统的相对便宜的检测方法。

当这种想法出现时,斯坦福大学Pease 和Davis实验室的研究人员从早期的焦

磷酸测序方法演变出一种检测微观结构中温度或pH值变化的新方法。因为这两种变化都是DNA合成过程中的副产品,这种方法摒弃了对发光进行检测。如同

焦磷酸测序,这种热测序方法需要检测多个循环,在每个循环四种核苷酸中的一种掺入到系统中,然后通过检测温度变化来观察新掺入到DNA链中的核苷酸。

每进行完一个循环,要彻底冲洗反应孔以去除残余的核苷酸,从而减少错误累积。这种创新性的检测方式导致了Genapsys公司从斯坦福基因组技术中心中建立出来。他们的热检测方法优于pH检测方法的地方在于,温度能通过降温块很快被重新复原,而氢离子必须要洗除干净。不过,作为生命技术公司新创分公司的Ion Torrent,运用pH变化来检测碱基掺入过程,在将新一代测序系统带入市场的道路上取得了重要进展。

Ion Torrent公司根据Ion Torrent公司的专利申请,场效应晶体管(Field-effect Transitors,FETs)被用来检测微池结构的pH变化(如图4)。为了增加通量,Ion Torrent测序芯片运用了高密度的微池阵列。每个微池就是一个单独的DNA 聚合反应的小室,其中包含有一个DNA聚合酶分子和一个待测序片段。就在微

池层的下面,是离子敏感层,紧接着是一个高密度的和微池一样排列的场效应晶体管阵列亚层。和焦磷酸测序类似,4种核苷酸的连续循环导入微池能保证原始序列分辨率,因为场效应晶体管能感受到核苷酸掺入时pH值的变化,并把这种信号转变为可记录的电压变化。因为电压的变化与每一步掺入的核苷酸数目有关,所以Ion Torrent测序芯片可对重复序列进行分辨。

图4. IonTorrent公司半导体测序芯片技术图示。A. 该芯片结构设计的逐层显示图。上层为单个的DNA聚合反应的微池,底部两层构成场效应晶体管离子传感器。每个微池有其相对应的场效应晶体管探头,以鉴别每一个pH值的变化。B. 侧面图:微池中,DNA聚合酶将两个重复的TTP核苷酸掺入测序片段中。反应

过程中释放出的氢离子被下方的场效应晶体管检测到。

目前,Ion Torrent公司提供一次性使用的Ion 314测序芯片。明年他们计划投

放第二和第三代芯片:Ion 316和Ion 318。Ion 314测序芯片上的120万个微

池可产生大约10Mb的序列信息,且平均读长为100碱基。为

进一步增加通量,Ion 316和Ion 318芯片将分别设计620万和1110万个微池。Ion 318芯片将期望产出1Gb的测序数据,且平均读长为200碱基或更高。最终,Ion Torrent公司将追求测序"民主化",将推出第一台价格合理(约5万美元),台式的和高通量的测序仪。

这种离子检测基础上的测序技术大有潜力来降低测序成本,但要测通整个基因组还存在缺陷。现在,短的读长严重限制了重组装过程和从头测序的组装,因为它还没有能力读通基因组长的重复区域。另外,由于这种测序方法的要一步步连贯的特性,如果反应步骤之间反应孔没有清洗干净,错误累积就会发生。最后,和前一代焦磷酸测序方法一样,要测通长达5-10碱基的由同一种核苷酸形成的小重复序列(同聚体区域)仍将是一个挑战。Ion Torrent公司已报道关于测序准

确性的数据,这些数据是关于大肠杆菌DH10B样品的测序,其中对同聚体进行了分析。对5聚的同聚体进行测序的准确度为97.5%。然而,难以了解到得出

这一准确度的样品总数,且他们对于超过5个碱基的同聚体测序的准确度的数据也没有进行报道。

纳米孔测序技术

一种基于纳米孔(纳米洞)结构的完全不同的测序技术,由Branton和Bayley

在以前的综述中描述过。单个碱基的读取可以靠测定经由纳米级别的孔洞而跨越或透过薄膜的电导率来进行。纳米孔是比双链DNA分子略宽的空洞,宽度为4nm,DNA分子像一条线一样穿过纳米孔。理论上来说,每种碱基的化学性质差异会

导致流经该纳米孔的电流值发生变化。纳米孔也可以设计成检测跨越空洞的隧道电流,因为每种碱基的电势不一样,这样就可以分辨出各种碱基。还在发展中的纳米孔测序方法是很有潜力的第四代技术。因为这种方法不再需要光学检测和同步的试剂洗脱过程了,所以它得到了"第四代"的雅号。

纳米孔技术可以广泛地归纳为两类:生物类和固态类。α溶血素是一种能天然性地连接到细胞膜中继而导致细胞溶解的蛋白质,它第一个被用来做成生物纳米孔模型。模型中,一层生物膜将溶液分为两个区域,α溶血素蛋白嵌入生物膜中形成纳米孔。当DNA分子穿过纳米孔时阻断电流会发生变化,这时灵敏电子元件

就能检测电流的变化。但是,由于四种碱基的理化性质比较接近,所以读取序列实际上比想象的困难得多。此外,有效减少电子噪音仍旧是个挑战,通过降低DNA的位移速率可以部分减少噪音。最近,牛津纳米孔与许多团队在解决这些

问题上取得了一些进步。

第二类纳米孔是以硅及其衍生物进行机械制造而成。使用这些合成的纳米孔可以降低在膜稳定性和蛋白定位等方面的麻烦,而这些正是牛津纳米孔公司所创立的生物纳米孔系统一直遇到的问题。例如,Nabsys就发明了一套系统,他们以汇

聚的离子束将硅片薄膜打成纳米孔,用于检测与特异性引物进行了杂交的单链DNA穿过纳米孔时的阻断电流变化。IBM创建了一个更为复杂的系统,能有效地使DNA位移暂停,并在暂停的时候通过隧道电流检测识别每个碱基。这两种

纳米孔技术将随后进行详细介绍。

图5. 纳米孔DNA测序以电子测量和光学阅读为检测方式。A. 在电子纳米孔方案中,通过离子电流,隧道电流和测量电压差而获得信号。每一种方法都必须产生特征性的信号以鉴别四种DNA碱基。B. 在光学阅读纳米孔的设计中,每个核苷酸被转换为一个预设的寡核苷酸序列和经标记了的标志物杂交,在DNA片段进行位移穿过纳米孔时被检测到。

John Kasianowicz及其同事使用离子流阻断方法,第一次展示了多聚核苷酸(poly[U])穿过生物分子纳米孔而位移的过程。这种纳米孔是以悬浮在磷脂双分子层中的葡萄球菌α溶血素做成。作者推断,只要满足下面条件,单个核苷酸就能被区分:(1)每个核苷酸产生自己唯一的信号签名;(2)纳米孔的缝隙有合适的几何结构,每次只容纳单个碱基;(3)电流检测有足够的分辨率去探测核苷酸位移速率;(4)当电势起作用时,核苷酸片段应该是单向运动的;(5)纳米孔和支撑膜之间的组装应该足够牢固。所有的生物和合成纳米孔都有厚度为5nm 的桶状结构通道(比碱基到碱基的距离3.4?长得多),每次可以容纳10~15个核苷酸。这样,利用阻断电流检测就不可能获得单个碱基分辨。另外,聚合物通过纳米孔的平均速度约为1核苷酸/微秒,这样的速度快得无法处理。核苷酸链位移应该被控制成在120-150 mV电势下慢至1核苷酸/毫秒,这样就可得到微微安培(pA)级的电流信号。此外,任何两个聚合物单链的位移事件应该是均一的。两个位移过程(捕获、进入和位移)的时间分布不是泊松分布,并且常常可能存在着一个数量级的差别。这就意味着,如果两个分子以相差很大的速率穿过同一个纳米孔时,慢的那个可能会被漏掉或错误解读。Andre Marziali等以原子力显微技术通过单分子结合特性去研究这些事件。DNA通过α溶血素蛋白纳米孔时所显现出的非均一动力学,归因于DNA与纳米孔蛋白氨基酸残基间存在着弱相互作用。

由于离子电流检测的一些困难(离子流通过纳米孔产生的电流),研究者也关注一些其他的检测方案,如:隧道电流的检测和电容变化的检测。在横向面隧道电流方案中,电极被置放在纳米孔的开口上,信号由亚纳米探针检测。在电容检测方案中,则是探测跨越金属氧化物-硅的层状结构的电压。当带电核苷酸纵向通过电容器时,会由于诱导而产生电压信号。典型的对核苷酸的光学识别包括两个步骤。第一步,目标序列的每个碱基被转换为一段序列的寡核苷酸,然后该寡核

苷酸与两色的分子信标(附带着荧光基团)进行杂交。由于必须确定四种核苷酸,两个荧光探针要成对地耦合去确定每个核苷酸。例如,如果A和B两个探针,其四个独特的排列将是AA,AB,BA,和BB。当杂交了的DNA链通过纳米孔时,荧光标签从其配对链(测序的目标序列)上被剥离下来,随即荧光信号就能被检测到。蛋白纳米孔和固态纳米孔都可以用于这种方法。电子检测方案和光学读出方法的细节在以前发表的论文都已有详尽的阐述。

Daniel Branton及其同事在2008年的一篇综述中讨论了纳米孔测序的发展和在高通量测序中低成本样品制备的前景。他们估计使用商业化试剂盒抽提和纯化来自血液的基因组的成本低至每个样品40美元,纯化后的基因组DNA足够测序使用(108个拷贝或者700微克)。所有现存的测序技术都需要将DNA打断成100左右碱基对长度的片段,然后进行多重测序以寻找重叠区域,从而可以组装在一起。纳米孔测序最吸引人的优势之一是能实现较长的读长,这样基因组组装过程将大大简化。在未来的实践中,其测序读长可能会只因为样品制备过程中DNA 被吹打剪断而受到限制。例如,Meller和Branton显示25 千碱基的单链DNA

可以线性通过生物纳米孔,而5.4 千碱基的的单链DNA可以通过固态纳米孔。另外有多个研究小组也证实,小寡核苷酸、原始的单链DNA、双链DNA都可以以很高通量位移通过纳米孔。

蛋白纳米孔测序法牛津纳米孔技术公司(Oxford Nanopore technologies,以前的Oxford Nanolabs),已经解决一部分上述的技术难题,并将纳米孔技术的引入了其商业化产品(GridION系统)。由牛津大学教授Hagan Bayley创办的牛津纳米(Oxford Nanopore),旨在将他实验室的生物纳米孔研究成果进行商业化。该公司正与哈佛大学的Daniel Branton, George Church, Jene Golovchenko,加州大学圣克鲁兹分校的David Deamer、Mark Akeson,美国国家标准技术研究所的John Kasianowicz展开合作。

牛津纳米孔技术公司的首席执行官Gordon Sanghera最近宣布,该公司正准备推出可用于直接单分子分析的GridION系统,该系统将采用外切酶测序。该系统基于"芯片上的实验室"技术,将多个电子元件整合进一个支架状的装置。一个蛋白纳米孔整合进磷脂双分子层,位于微池顶部,并配有电极。许多微池被整合入一个阵列芯片,每个模块控制一个芯片,整合包括用于样品制备、检测和分析的液体流动和电子系统。样品被引入模块,这个模块插入一个叫GridION节点的装置。每个节点可以单独使用也可以成簇使用,所有节点间可以实时互相沟通、可以同用户的网络系统和存储系统进行沟通。虽然该平台的主要用于DNA测序,但它也可以进行调整(对α溶血素蛋白纳米孔进行适当调整)而用于蛋白质和小分子的检测。

牛津纳米孔技术的第一代系统使用的是α溶血素蛋白七聚体。α溶血素蛋白提供了低成本、稳定的生物纳米孔。牛津纳米孔技术正在对两种类型的测序方法进行商业化:核酸外切酶测序和链测序。在核酸外切酶方法中,环糊精接头分子位于蛋白纳米孔的里部,作为DNA结合位点。此外,纳米孔还偶联了一个核酸外切酶分子,该酶分子可以从DNA链上逐个剪切单个碱基,这样,纳米孔就可以在DNA碱基通过并与环糊精结合时精确地检测出每个碱基。外切酶位于纳米孔的

顶部,控制DNA链的位移速度,使其由固有的泳动速度(微秒级)降低下来(毫秒级)。最必要的是,每个核苷酸通过纳米孔大致时间是20 毫秒,这个速度足以用于精确检测。四种核苷酸产生不同程度的电流阻断,因此,DNA序列的测定是可能的。假设以稳定的速度每毫秒测一个碱基,单独的一个纳米孔需要69天去处理60亿个碱基。从理论上而言,100000个孔以此速度测序,只需要30分钟就能得到30倍覆盖度的基因组数据。

图6. 牛津纳米公司所采用的生物纳米孔方案图。A. 溶血素蛋白突变体图略,图中描述了环糊精(在第135残基处)和谷氨酰胺(在第139残基处)的位置. B. 突变的纳米孔的桶状结构的详图。显示了精氨酸(在第113残基处)和半胱氨酸的位置. C. 外切酶测序法:外切酶分子附着到纳米孔的顶部,将目标DNA链上的单个核苷酸逐一切下来,再使它们通过纳米孔。D. 残基电流-vs-时间的信号轨迹,能将四种不同的碱基清楚的区分开来。 E. 链测序法:单链DNA线性通过一个蛋白纳米孔,单个碱基得以区分开,而DNA链保持完整。

牛津纳米孔技术也正致力于链测序技术,即当单链DNA片段通过纳米孔时检测每个碱基。这个方法可能比核酸外切酶测序方法更快更准确。因为所有的核苷酸都是相互连接的,所以可以避免读错方向。不过,真正的挑战在于,当它们通过纳米孔时,如何精确地读取每个单个碱基。

固态纳米孔测序法虽然α溶血素七聚体相当不错,但用于悬浮纳米孔的磷脂双分子层并不稳定且难以操控。固体或是人造纳米孔被认为是下一代纳米孔技术,一方面因为它们无需使用有机材料做支撑物,而主要是它们更加稳定。固态纳米孔还能在单个设备上平行地多重使用,这是生物纳米孔无法达到的。人造纳米孔组装在固态物质上,如氮化硅,硅或金属氧化物,及最近使用的石墨烯。石墨烯是一种新的单原子厚度的材料,是所知的最薄的膜。宾夕法尼亚大学的Marija Drndic小组发表了DNA通过石墨烯膜纳米孔的检测实验,该膜的厚度为1 - 5纳米,纳米孔的直径为5 - 10纳米(图7A)。在其他出版物中,哈佛大学

Golovchenko实验室的研究人员发现,石墨烯薄片可以作为膜材料支持固态纳米孔和把离子溶液分隔为两部分(图7B)。

目前IBM与454 生命科学(罗氏)联合开发一种新型固态材料的人造纳米孔(是金属介质的层状结构)DNA测序新方法。这个想法来源于2006年得系统生物学家Gustavo Stolovitzky和IBM电气工程师Stanislav Polonsky。由电子束在10nm 厚的氮化钛膜上钻得3纳米的人工纳米孔,然后用二氧化硅绝缘层将其分开。

图7. 几种合成的纳米孔测序装置的设计图。A. 此装置是后1-5纳米的石墨烯,它被悬置于一张硅片上,硅片则以5微米厚的二氧化硅层进行包被. 该装置被安装在一个PDMS芯片中,芯片两侧有流体通道. B. 在石墨烯薄膜上钻的纳米孔。该纳米孔悬置于碳化硅片层上,并跨越由硅做成的支架。石墨烯薄膜将两种溶液分隔开,有银和氯化银电极连着两极。C. IBM公司的DNA半导体装置示意图. 以电子束钻得的纳米大小的孔。在两侧的开口处加上电场,就可以进行电荷捕获。

D. 对通过的DNA片段进行电子阅读的固态纳米孔。6聚合体的寡核苷酸探针和单链DNA片段杂交后正通过纳米孔。电流-vs-时间的信号轨迹线被记录下来。

当DNA链被牵引通过纳米孔时,横跨金属层的电场翻转(也称为棘轮效应),产生固定作用,可控制DNA链的运动。电场的交替可能有利于提高测序准确性。有两种检测信号的方法,测量电容或离子电流(类似于牛津纳米孔检测,但在这里,DNA链将保持完整)。为了获得足够强的信号,DNA链会被捕获住,以经受为时一毫秒的审问。尽管预计他们仍需要5至7年的发展才会推向市场,但其电子检测方式加上方便的样品制备,使其在廉价测序领域极具潜力。

尽管通过阻断电流测定穿过人工纳米孔获得单碱基分辨率是一种挑战,但是很多团队能够在宽度足够容纳双链的纳米孔中轻易地区分单链DNA和双链DNA的位移。因为容易得到的粗分辨率,研究者通过将杂交探针附加到DNA片段上,开

始思索从头测序的新技术。最近,Balagurusamy等实验展示了两个连续12聚体的双链通过氮化硅膜上的纳米孔的位移过程,并对其成功进行了电子检测。另一项的固态纳米孔研究报道了与肽核苷酸探针(PNA)杂交的双链DNA线性通过

一个30nm厚的膜上的纳米孔的过程(亚5纳米)。这些研究有望实现经纳米孔的杂交测序(Sequencing by Hybridization,SBH),也被称为杂交辅助纳米孔测序

法(Hybridization -assisted Nanopore Sequencing, HANS)。NABsys公司已为这项技术申请到许可,这是一家由布朗大学物理教授Sean Ling 2005年创办的DNA测序新创公司。该公司旨在开发"电子阅读"DNA计算芯片并商业化。实际

中观测到,6聚体的杂交探针可与长100千碱基的基因组片段结合,在电泳中驱动基因组片段通过固态纳米孔并产生电流信号(图7D)。基于电流追踪、探针

定位,于是,小片段序列就可以被测定。如果以一个完整的探针文库来平行地进行这个测序过程,那么就能基本上做到对全基因组的阅读和组装。该公司承诺全基因组测序成本最终会降低4个数量级。但是,如何以杂交辅助纳米孔测序法(HANS)技术达到对电子信号阅读的足够的分辨率,仍是一个有待探讨的问题。

长距离阅读DNA的扩展方法

目前大部分的DNA测序技术都是依赖于对小于400个碱基的DNA片段的短读取方法。目前有几种不同的新方法,它们着眼于对长达百万碱基的DNA片段进行

测序。最近一些报道都强调了在对原核生物的基因组拼接中短读取技术的局限性。对长DNA区域进行绘图,可以提供重复、缺失、插入、转位的数据,但这些却

是现有短读长测序方法不能做到的。

通过光学绘图来做最后组装威斯康星大学麦迪逊分校David C. Schwartz教授及

其同事开发了仅有的一套系统(光学绘图,Optical Mapping),可以用于数据策略指导、验证、完整复杂基因组的组装。光学绘图系统以大量的数据库材料,包括一些由5,000-2,000,000 个基因组DNA分子(长约50千碱基)的数据组,构建了覆盖全基因组范围的长距离的有序的限制性图谱,并以酶切点为"条形码",直接用荧光显微镜成像。这种高度自动化系统是第一个具备全基因组分析能力的单分子平台。光学绘图系统拥有善于做序列比对排列的计算工具,可以在全基因组范围内将新发现的序列整合到从头测序的图谱中。除了可以精确描述染色体数目和大小外,这种序列比对排列还能定位孤儿序列,为序列支架和重叠序列排出次序和方向,能确定出基因组中序列缺口大小,揭示出组装错误。光学绘图系统早期应用都集中在细菌和低等真核生物基因组;而最近,光图谱分析已成功地指导复杂基因组的组装和验证,包括大米和玉米。因为很大基因组DNA(约500 KB)的得到了分析,那些近着丝粒的复杂基因组区域,或有很多重复片段就能够得到测定,这样就能揭示出新的结构变异(这是测序所不能企及的)。这一技术优势使得很多新的结构变异得以发现,例如人类基因组的插入或复杂重排。这些结构变异曾在人类基因组测序中令人困惑,并呼唤新方法的出现,以解决如癌症基因组的断裂点和重排等问题。

Schwartz实验室则开发出更为先进的基因作图方法,通过增加测序读数到长的

双链分子,并且开发了Nanocoding系统。在一个独立的反应混合物中,他们将待测的基因组片段,用具有打口功能的限制性酶在同源识别位点处选择性地剪切

双链DNA中的一条链。新产生的缺口被贴上用荧光染料标记的核苷酸。这样就有了独特的单分子条码,因为最终产物是全长双链DNA,它的每个酶识别位点以荧光修饰。修饰好的DNA分子被放入微流体芯片,然后进入宽50 微米的通道。这些微流体通道以45的角度一分为二成为宽1微米深100 纳米的纳米流体通道。微流体-纳米流体通道的角度,加上纳米流体通道的宽度,显着降低了使DNA分子由盘绕形式充分伸展开来所需的熵值惩罚,而低离子强度缓冲也又大大促进了分子在纳米孔内的伸展。一旦DNA分子链在通道充分伸展开来,荧光成像系统[FRET (荧光共振能量转移系统,Fluorescence Resonance Energy transfer,FRET)和机器视觉就会识别以共价键形式掺入的荧光基团在DNA分子链上位置,继而这些数据被组装到全基因组范围的物理图谱中。

第二个应用纳米流体学的公司是BioNanomatrix,其技术已由普林斯顿大学获得许可证。他们也使用纳米流体通道将DNA伸展开,靠的是一种经独特加工的通道入口设计。这个通道的宽度和深度都是大约100nm或稍小。为了是DNA链克服熵障碍而进入通道,他们将通道深度由微米变成纳米,使DNA逐渐解旋并进入纳米通道以进行拍照。这些芯片中可能设有狭窄部分,可以迫使DNA链穿过紧窄空隙。BioNanomatrix芯片中使用甲酰胺和受控的局部加热(在荧光基团供体YOYO-1存在时),使DNA发生部分变性,然后从荧光信号的模式上来推断DNA序列。第二种技术被用于在λ-DNA上识别地标。研究者们用缺口酶去置换限制性酶识别位点核苷酸,然后,将被置换链与荧光标签探针进行杂交,再以一个摄像头和图像处理软件进行分析。他们在30秒内照了300 DNA分子,在2

个目标位点上,85%的DNA分析得到了正确标记。

非光学的DNA分子伸展方法这里讨论的方法仍然是在某种表面上将DNA进行伸展,再去读取每一个碱基。但这种方法完全无需使用照相机,而是使用原子成像方法。Halcyon分子(HalcyonMolecular)是依靠快速扫描隧道电子显微镜(Rapid-scan Tunneling Electron Microscope,TEM)方法的第四代技术。单个DNA碱基都被标以独特的重原子,使它们得以彼此区分开来。ZS遗传公司(ZS Genetics,ZS指的是零科学)使用TEM方法,但还没有发表任何详细的方法和结果。据报道,使用扫描隧道显微镜能(STM)可将鸟嘌呤同非鸟嘌呤进行区别。STM测量流经扫描头的电子密度。尽管能读取140bp并且能够同参照基因组序列进行比对,但是一些局限性尤其是测序速度,阻碍了其商业应用的可行性。结论

在新型DNA测序技术领域里,各种技术和资助以从未有过的速度在增长。如本综述中所言,出现了很多不同的方法,横跨不同代的新技术。每种技术都有自身的优势和局限,因此,从根本上说,要做特定目的的基因分析应用,必须进行合理评估,以选择合适的测序平台。虽然第二代和第三代平台有很大的通量,但基于桑格原理的毛细管电泳测序仍是超高精度测序的黄金标准,是迄今为止唯一既能为人类基因组既提供从头测序和又有从头组装技术的技术。下一代测序技术为了获得广泛认同,无论是第二或第三代平台中的哪一种,都必须也同时具备一套第一代毛细管电泳测序平台,并同时将由着两套平台得到的从头测序样品的测序结果和组装结果进行定量比较,方能使人放心而得到广泛的认同---换言之,

无论第二,三代测序平台怎样发展,它们仍然依赖于第一代平台的协助作用。这将为从头测序的真实成本提供坚实的证据,并作为一个出发点,供现在和将来的研究人员去决定如何解决下一波的人类基因组测序计划,或对决定如何开展对一些相似的复杂基因组进行从头测序。目前,既然现有的测序技术局各有其局限性,为了达到对一种复杂的全基因组进行从头测序,可能需要随机采用几种技术,彼此协调配合,以达到测序的高通量,准确性、高读长的相邻重叠片段、和大范围的基因绘图。(生物谷https://www.doczj.com/doc/2f10783008.html,)

三代测序原理技术比较

导读从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序 技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为 sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

DNA测序技术的发展和其最新进展

DNA测序技术的发展及其最新进展 摘要:自从诺贝尔奖得主桑格于1977年发明了第一代DN测序技术以来,DNA测序技术已经作为重要的实验技术广泛的应用于现代生物学研究当中。经过了几十年的发展,DNA测序技术日臻成熟,并且以单分子测序为特点的第三代测序技术也已经诞生。本文主要就每一代测序技术原理和特点及其最新进展做简要介绍。 关键词:DNA测序技术;第三代DNA测序技术;最新进展 The Development and New Progress of DNA Sequencing Technology Abstract: Since Nobel Prize Winner Sanger have founded the first generation of DNA Sequence technology in 1977, DNA sequencing technology has been widely used in modern biological researches as an important experimental. Over decades of year’s development, DNA sequence technology mature gradually and the third generation sequencing technologies characterized by single-molecule sequencing have also emerged. The mechanisms and features of each generation of sequencing technology and their latest progress will be discussed here. Key Words: DNA Sequence technology ; third generation DNA sequencing ;latest development 1.引言 DNA测序技术是分子生物学研究中最常用的技术,它的出现极大地推动了生物学的发展。自从1953年Watson和Crick发现DNA双螺旋结构后[1],人类就开始了对DNA序列的探索,在世界各地掀起了DNA测序技术的热潮。1977年Maxam和Gilbert报道了通过化学降解测定DNA序列的方法[2]。同一时期,Sanger发明了双脱氧链终止法[3]。20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。最近几年发展起来的第二代DNA测序技术则使得DNA测序进入了高通量、低成本的时代。目前,基于单分子读取技术的第三代测序技术已经出现,该技术测定DNA序列更快,并有望进一步降低测序成本,推进相关领域生物学研究。本文主要介绍DNA测序技术的发展历史及不同发展阶段各种主要测序技术的特点,并针对目前新一代DNA测序技术及目前国际DNA测序最新进展做简要综述。

新一代测序技术的发展及应用前景

2010年第10期杨晓玲等:新一代测序技术的发展及应用前景 等交叉学科的迅猛发展。 1.1第二代测序——高通量低成本齐头并进以高通量低成本为主要特征的第二代测序,不再需要大肠杆菌进行体内扩增,而是直接通过聚合酶或者连接酶进行体外合成测序¨】。根据其原理又可分为两类:聚合酶合成测序和连接酶合成测序。1.1.1聚合酶合成测序法Roche公司推出的454技术开辟了高通量测序的先河。该技术通量可达Sangcr测序的几百倍,而成本却只有几十分之一,因此一经推出,便受到了国际上基因组学专家的广泛关注。454采用焦磷酸合成测序法HJ,避免了传统测序进行荧光标记以及跑胶等繁琐步骤,同时利用乳胶系统对DNA分子进行扩增,实现了大规模并行测序。截止到2010年4月,已有700多篇文献是采用了454测序技术(http://454.com/publications.and—resources/publications.asp),对该技术是一个极大的肯定。 Illumina公司推出的Solexa遗传分析仪是合成技术的进一步发展与延伸。该技术借助高密度的DNA单分子阵列,使得测序成本和效率均有了较大改善。同时Solexa公司提出的可逆终止子”1也是该技术获得认可的原因之一。与454相比。Solexa拥有更高的通量,更低的成本。虽然片段长度较短仍是主要的技术瓶颈,但是对于已有基因组的物种来说,Solexa理所当然成为第二代测序技术的首选。2008年以来,利用该技术开展的研究大幅度上升,报道文献达400多篇(http://www.illumina.com/systems/genome—analyzer_iix.ilmn)o 1.1.2连接酶合成测序法2007年ABI公司在Church小组拍1研究成果的基础上推出了SOLID测序仪。该技术的创新之处在于双碱基编码…的应用,即每个碱基被阅读两次,因此大大减少了测序带来的错误率,同时可以方便的区分SNP和测序错误。在测序过程中,仪器自动加入4种荧光标记的寡核苷酸探针,探针与引物发生连接反应,通过激发末端的荧光标记识别结合上的碱基类型。目前SOLID3.0测序通量可达20G,而测序片段仅有35—50bp,这使得该技术与Solexa相比,应用范围还不够广泛。ABI公司正加快研发进度,争取在片段长度方面做出重大突破。 DanaherMotion公司推出Polonator¨1测序仪同样也是基于Church小组的研究成果,但是该设备的成本要低很多,同时用户在使用时可以根据自己的研究目的设置不同的测序条件。而CompleteGe—nomics公司推出的DNA纳米阵列与组合探针锚定连接测序法"1则具有更高的容错能力,试剂的消耗也进一步减少,目前已顺利完成3个个体基因组的测序工作。 1.2第三代测序——单分子长片段有望实现第二代测序技术虽然在各方面都有了较大的突破,但是仍然建立在PCR扩增的基础上。为了避免PCR扩增带来的偏差,科学家目前正在研制对DNA单个分子直接测序的第三代测序仪。最具代表性的包括Heliscope单分子测序仪,单分子实时合成测序法,纳米孔测序技术等。 Helicos技术仍然是基于合成测序原理¨…,它采用了一种新的荧光类似物和灵敏的监测系统,能够直接记录到单个碱基的荧光,从而克服了其他方法须同时测数千个相同基因片段以增加信号亮度的缺陷。PacificBioscienees公司研发的单分子实时合成测序法充分利用了DNA聚合酶的特性,可以形象的描述为通过显微镜实时观测DNA聚合酶,并记录DNA合成的整个过程。纳米孔测序技术[11’121则是利用不同碱基在通过纳米小孔时引起的静电感应稍有不同,或者不同碱基通过小孔的能力各有差异,来加以区分不同的碱基信号。 2应用与实践 Kahvejian在2008年的一篇综述中提到¨“:“如果你可以随心所欲地测序,你会开展哪些研究?”。人类基因组计划的完成和近年来高通量测序的兴起,使越来越多的科研工作者认识到,我们对于生物界的认识才刚刚起步。基因图谱的绘制并不意味着所有遗传密码的破解,癌症基因组的开展也没有解决所有的医学难题。DNA变异的模式和进化机制,基因调控网络的结构和相互作用方式,复杂性状及疾病的分子遗传基础等,仍是困扰生物学家和医学家的难题,而高通量测序的广泛应用,也许可以让我们知道的更多。 2.1DNA水平的应用 2.1.1全基因组测序新一代测序技术极大地推

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

高通量测序 名词解释

高通量测序基础知识汇总 一代测序技术:即传统的Sanger测序法,Sanger法是根据核苷酸在待定序列模板上的引物点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,通过检测得到DNA碱基序列。 二代测序技术:next generation sequencing(NGS)又称为高通量测序技术,与传统测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deep sequencing)。NGS主要的平台有Roche(454 & 454+),Illumina(HiSeq 2000/2500、GA IIx、MiSeq),ABI SOLiD等。 基因:Gene,是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。 DNA:Deoxyribonucleic acid,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链,即DNA链,DNA链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体。

新一代DNA测序技术总览

作者:尹银亮、陈会平、毛良伟译来源:生物谷 原文刊登于《分析化学》综述Analytical Chemistry 原文标题:Landscape of Next-Generation Sequencing Technologies 索引信息:https://www.doczj.com/doc/2f10783008.html,/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341 原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro 译者资料: 尹银亮,香港华大基因研发中心有限公司email:stevenyinbio@https://www.doczj.com/doc/2f10783008.html, 陈会平,毛良伟,武汉华大基因科技有限公司 【内容】 第二代测序 第二代测序成本 第三代测序技术 单分子测序法 边连接边测序法 边合成边测序法 纳米孔测序技术 蛋白质纳米孔测序法 固态纳米孔测序法 长距离阅读DNA的扩展方法 总结性评论 DNA测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌 体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。 后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼.考尔特公司(Beckman Coulter inc.)(见表1)。发表于2001年的第一个人类基因组

三代基因组测序技术原理(简介)

三代基因组测序技术原理简介 【写在前面的话】:首先,这一篇博文中的内容并非原创,而是对多篇文献中内容的直接摘录,有些图片和资料还来自身边的同事(在此深表谢意!),再夹杂自己的零星想法,写在这里分享与大家,同时也是为了方便自己日后若有需要能够方便获得,文章比较长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1: 测序技 术的发 展历程 生命体 遗传信 息的快 速获得 对于生 命科学 的研究 有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为sanger测序法制作了一个小短片,形象而生动。

三代测序原理技术比较

导从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测导序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从读长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到 长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势 位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变 革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在 这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1 :测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson )开创的链终止法或者是1976-1977年由马克西姆(Maxam和吉尔伯特(Gilbert )发明的化学法(链降解)?并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱 基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。 研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基 因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2' 和3'都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为san ger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了San ger法之外还出现了一 些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2 - 4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方 法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP 图2: Sanger法测序原理

一代、二代、三代测序技术

三代基因组测序技术原理简介 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和 ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

基因组测序的数学模型分解

基因组组装 摘要 基因组测序是生物信息学的核心,有着极其重要的应用价值。新的测序技术大量涌现,产生的reads长度更短,数量更多,覆盖率更大,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获取整个DNA片段,需要把这些片段利用重合部分信息组织连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。 本文建立改进后OLC算法模型。该模型首先使用了特定的编码规定,通过C++程序对庞大的数据先后进行十进制和二进制的处理,不改变数据准确性的前提下尽可能减小内存和缩短计算机操作时间,并引入解决碱基识别错误问题的一般思路消除初始reads中的碱基错误。然后通过深度优先算法,设定适当的阈值,找出具有重叠关系的碱基片段并形成一有向赋权图,其中点是碱基片段,边代表具有重叠关系,权值代表片段重叠的多少,将问题转化为图论中寻找最大赋权通路的问题,从而对OLC算法进行改进,采用图论的方法更直观和更具操作性的解决DNA的拼接问题,从而对OLC算法进行改进。最后再根据OLC算法对Hamilton 路径进行拼接,生成共有序列,通过多序列比对等方法,获得最终的基因组序列。 关键词:基因组测序 OLC算法深度优先算法Hamilton路径

一问题的重述 1.1 问题背景 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 1.2 问题提出 确定基因组碱基对序列的过程称为测序。目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。 由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。具体解决问题如下: (1)建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 (2)现有一个全长约为120,000个碱基对的细菌人工染色体,采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度约为70×,即基因组每个位置平均被测到约70次。试利

三代基因组测序技术简介及其原理整理.

三代基因组测序技术简介及其原理整理 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法以及1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解)。 1977年,桑格测定了第一个基因组序列——噬菌体X174,全长5375个碱基。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。 Sanger法原理: 1)在模板指导下,DNA聚合酶不断将dNTP(N=A/G/T/ C)加到引物的3’- OH末端,合成出新的互补链。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,在互补链在DNA聚合酶作用下延伸时,一旦连接上ddNTP,由于双脱氧核糖的2’和3’都不含羟基,故不能同后续的dNTP形成磷酸二酯键而终止反应,随即形成一系列不同长度的、以同样引物为起始、以同一碱基终止的短片段混合物。 2)双脱氧核苷酸在每个DNA分子中掺入的位置不同,采用聚丙烯酰胺凝胶电泳区分长度差一个核苷酸的单链DNA,从而读取DNA核苷酸序列。 化学裂解法原理: 与Sanger法类似,将DNA模板分成4个反应。在每个反应中,先在模板5’端进行放射性标记,再加入能特异性在其中一种碱基处切开DNA的化学试剂。反应进行时,平均一个DNA分子只在随机位点产生一次裂解。接着,通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。 第二代测序技术 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术并不是最理想的测序方法。经过不

新一代高通量测序技术SOLiD简介

新一代高通量测序技术SOLiD简介 目前市场上有四种高通量测序仪,分别是Solexa,454 (GS-FLX),SOLiD和Polonator。根据测序原理,它们可以被分为两大类:使用合成法测序(Sequencing by Synthesis)的Solexa和454,及使用连接法测序(Sequencing by Ligation)的Polonator和SOLiD。这些高通量测序仪的共同点是不需要大肠杆菌系统进行DNA模板扩增,且测序所得序列较短:其中的454序列最长,为200~300个碱基,其余三种序列都只有几十个碱基。测序原理及序列长度的差异决定了各种高通量测序仪具有不同的应用领域。这就要求我们在熟悉各种高通量测序仪内在技术特点的基础上进行选择。 基因组所引进的SOLiD (Sequencing by Oligonucleotide Ligation and Detection)是ABI(Applied Biosystems)公司生产的高通量测序仪。目前这台SOLiD运行稳定,SOLiD实验及数据分析小组也可以为大家提供专业的技术服务。所以接下来的关键是如何把SOLiD测序仪应用到符合其技术特点的科研项目中。本短文将简单介绍SOLiD测序流程,双碱基编码原理及数据分析原理,以帮助大家了解SOLiD测序仪的技术特点和应用范围。 1.SOLiD关键技术及其原理 SOLiD使用连接法测序获得基于“双碱基编码原理”的SOLiD颜色编码序列,随后的数据分析比较原始颜色序列与转换成颜色编码的reference序列,把SOLiD颜色序列定位到reference上,同时校正测序错误,并可结合原始颜色序列的质量信息发现潜在SNP位点。 1.1. SOLiD文库构建 使用SOLiD测序时,可根据实际需要,制备片段文库(fragment library)或末端配对文库(mate-paired library)。简单地说,制备片段文库就是在短DNA片段(60~110 bp)两端加上SOLiD 接头(P1、P2 adapter)。而制备末端配对文库,先通过DNA环化、Ecop15I酶切等步骤截取长DNA片段(600bp到10kb)两末端各25 bp进行连接,然后在该连接产物两端加上SOLiD接头。两种文库的最终产物都是两端分别带有P1、P2 adapter的DNA双链,插入片段及测序接头总长为120~180 bp。 1.2:油包水PCR 我们知道,文库制备得到大量末端带P1、P2 adapter但内部插入序列不同的DNA双链模板。和普通PCR一样,油包水PCR也是在水溶液进行反应,该水相含PCR所需试剂,DNA模板及可分别与P1、P2 adapter结合的P1、P2 PCR引物。但与普通PCR不同的是,P1引物固定在P1磁珠球形表面(SOLiD将这种表面固定着大量P1引物的磁珠称为P1磁珠)。PCR反应过程中磁珠表面的P1引物可以和变性模板的P1 adapter负链结合,引导模板合成,这样一来,P1引物引导合成的DNA链也就被固定到P1磁珠表面了。 油包水PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR 反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。A BI公司提供的SOLiD 实验手册已经把小水滴体积及水相中DNA模板和磁珠的个数比等重要参数进行了技术优化和流程固定,尽可能提高“优质小水滴”(水滴中只含一个DNA模板一个P1磁珠)的数量,为后续SOLiD 测序提供只含有一种DNA模板扩增产物的高质量P1磁珠。

高通量测序:第二代测序技术详细介绍

在过去几年里,新一代DNA 测序技术平台在那些大型测序实验室中迅猛发展,各种新技术犹如雨后春笋般涌现。之所以将它们称之为新一代测序技术(next-generation sequencing),是相对于传统Sanger 测序而言的。Sanger 测序法一直以来因可靠、准确,可以产生长的读长而被广泛应用,但是它的致命缺陷是相当慢。十三年,一个人类基因组,这显然不是理想的速度,我们需要更高通量的测序平台。此时,新一代测序技术应运而生,它们利用大量并行处理的能力读取多个短DNA 片段,然后拼接成一幅完整的图画。 Sanger 测序大家都比较了解,是先将基因组DNA 片断化,然后克隆到质粒载体上,再转化大肠杆菌。对于每个测序反应,挑出单克隆,并纯化质粒DNA。每个循环测序反应产生以ddNTP 终止的,荧光标记的产物梯度,在测序仪的96或384 毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时,四通道发射光谱就构成了测序轨迹。 在新一代测序技术中,片断化的基因组DNA 两侧连上接头,随后运用不同的步骤来产生几百万个空间固定的PCR 克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成。之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上,这些反应就能够大规模平行进行。同样地,每个延伸所掺入的荧光标记的成像检测也能同时进行,来获取测序数据。酶拷问和成像的持续反复构成了相邻的测序阅读片段。

Solexa高通量测序原理

--采用大规模并行合成测序法(SBS,Sequencing-By-Synthesis)和可逆性末端终结技术(ReversibleTerminatorChemistry) --可减少因二级结构造成的一段区域的缺失。 --具有高精确度、高通量、高灵敏度和低成本等突出优势 --可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究 ----将接头连接到片段上,经PCR扩增后制成Library。 ----随后在含有接头(单链引物)的芯片(flowcell)上将已加入接头的DNA片段变成单链后通过与单链引物互补配对绑定在芯片上,另一端和附近的另外一个引物互补也被固定,形成“桥” ----经30伦扩增反应,形成单克隆DNA簇 ----边合成边测序(Sequencing By Synthesis)的原理,加入改造过的DNA 聚合酶和带有4 种荧光标记的dNTP。这些dNTP是“可逆终止子”,其3’羟 基末端带有可化学切割的基团,使得每个循环只能掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性,继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA 片段的序列。目前的配对末端读长可达到2×50 bp,更长的读长也能实现,但错误率会增高。读长会受到多个引起信号衰减的因素所影响,如荧光标记的不完全切割。 Roche 454 测序技术 “一个片段= 一个磁珠= 一条读长(One fragment =One bead = One read)”1)样品输入并片段化:GS FLX 系统支持各种不同来源的样品,包括基因组DNA、PCR 产物、BAC、cDNA、小分子RNA 等等。大的样品例如基因组DNA 或者BAC 等被打断成300-800 bp 的片段;对于小分子的非编码RNA 或者PCR 扩增产物,这一步则不需要。短的PCR 产物则可以直接跳到步骤3)。 2)文库制备:借助一系列标准的分子生物学技术,将A 和B 接头(3’和5’端具有特异性)连接到DNA 片段上。接头也将用于后续的纯化,扩增和测序步

一代至四代测序技术详细讲解

一、我们将如何应对海量的基因信息 新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。 1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。 过去,研究人员使用Applied Biosystems(ABI)公司的3730XL毛细管电泳测序仪进行基因分析,每年至多能完成六千万碱基的测序量。随着测序技术日新月异的发展,这种情况已经成为历史。在2005年刚刚开始进行新一代测序技术开发时,Roche公司和454公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI仪器速度的50倍之上。也就是从那时起,因基因数据过多而产生的问题凸显了出来,而且这个问题随着其他制造商开发出更多更快的测序仪而愈加严重。举个例子,ABI的新一代测序平台SOLiD(supported oligonucleotide ligation and detection)单次运行,便可以分析6Gb的碱基序列;而Roche/454测序仪单次运行可以将上述结果转换成12-15个千兆字节(gigabytes)的数据信息;Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10兆兆字节(terabytes)的信息。尽管对于像Applied Biosystems这样的制造商而言,可以为用户提供高达11.25TB的存储量,但对于多数实验室所具有的信息管理系统来说,规模如此庞大的数据信息,就好像是迎面而来的洪水,让人感到难以控制。 过量信息所带来的一个副作用在于,用户无法将初始图像数据进行分类存档,而必须交给相关公司,利用软件对数据进行读取,然后才能对数据进行保存。对于大多数研究人员来说,像这样在每次实验后对原始数据进行处理的方式既繁琐又不经济。与花费上万美元对每一段序列进行备份分析相比,对每一次测序结果进行重新测定显然是一个更简单、更便宜的选择。测序仪制造商称,对原始数据再次进行分析并不能得到更多新的信息。但是,对于454测序仪而言,用户至少可以通过更新的软件从原始数据得到质量更高的序列,从而提高碱基识别分辨率,减少误差。 除数据处理问题之外,研究人员还需要拥有一个足够强大的计算机平台,以便将来自多个测序技术的短小基因片段进行组合,形成基因组外显子。目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。研究界越来越熟悉这些测序平台对循证生物学的巨大潜力,这也就产生了新的研究问题以及全新类型的试验方法,而这单凭依赖目前的生物学信息是无法满足的。 从这个角度看,SOLiD软件研发公司(https://www.doczj.com/doc/2f10783008.html,/gf/)于今年七月刚刚兼并了两个新的软件公司,这一举动无疑朝正确的方向迈进了一步。该公司在开放源码许可证下开发软件分析工具,目的就是为了给生物信息学领域提供支持,并为其开发新的算法。 对用户而言,如果能够将数据格式与不同测序平台获得的结果进行比较所得的统计数字进行标准化,无疑具有重大的意义。特别是由于目前以测序平台为核心的市场竞争激烈,因此每个生产商都努力提供最好的数据结果。

相关主题
文本预览
相关文档 最新文档