王尘宇王尘宇

研究百度干SEO做推广变成一个被互联网搞的人

测序40年——闲谈组拆

从1977年Sanger创造双脱氧链末行法DNA测序手艺起,基因组奥秘的面纱一点一点的被揭露,从小至几千碱基的噬菌体基因组到数百万碱基的细菌基因组,再到三十亿碱基的人类基因组,每一步都值得记录在人类摸索天然、认识本身的篇章中。而那些功效背后的重要一环——基因组组拆,无疑是一个在研究中足够美的问题:既足够简明,可用短短的一段话来描述;又足够深入,值得数十年的持续研究。小编今天和各人分享基因组组拆的汗青以及前沿的开展。

Part 1.白云生处

上面是计算机学家Staden关于序列拼接的描述,从中能够引申出我们现在经常利用的几个术语:reads/overlap/contig。关于序列拼接的概念Staden停止了简明的定义:通过读取片段(reads)间的毗连关系(overlap)构建出更长的持续性片段(contig)。

更进一步的组拆研究中,序列拼接问题被转化为图论中的途径寻找问题:以点(node)代表测序序列,以边(edge)代表毗连关系,以途径(path)代表的图上点的定向行走(walk)。那里面,最有代表性的两种构图体例即string图和de Brujin图。下面送上两张小编保藏多年的图,十分好的论述了string图和de Brujin图在基因组组拆中的应用原理。

图1. Strings Graph in genome assembly[2]

图2. De Brujin Graph in genome assembly[3]

Part 2.一往而深

提起基因组,最广为人知的应该是人类基因组方案了,2001年公布的人类基因组是那一方案的里程碑事务。此中,大放荣耀的Celera Assembler也成为基因组组拆的初代机[4],whole genome shotgun的测序战略连系Overlap Layout Consensus的组拆战略,霸占了基因组学研究上的第一座顶峰。

但是一代测序因为昂扬的测序成本以及较低的测序通量,限造了其在更多、更大规模的基因组学研究中的应用。跟着二代高通量测序的应运而生,全基因组测序才成为科研人员普遍利用的东西。以2005年呈现的454测序仪和2008年呈现的illumina测序仪为代表,短读长、高通量的测序数据成为支流。而关于基因组组拆而言,与之而来的却是短至几十碱基的测序片段带来的拼接窘境。

为此,研究人员创造了差别的文库构建办法,以及改动了序列拼接的算法。深邃度+多文库的双端测序战略连系de Brujin图的组拆战略,成为新一代的组拆标杆。在那一如火如荼的时代,华大基因以其SOAPdenovo[5],以快打慢,打下了一片大大的山河(大雾)。

所谓一代版本一代神,固然通过二代测序绘造了多物种的基因组草图,但整体的持续性和完好性上仍存在较大不敷。跟着三代单分子测序手艺的呈现,又再次焕发了OLC组拆战略的新春。基于Celera Assembler,研究人员适应三代测序数据构成了Hierarchical Genome Assembly Process(HGAP)的先纠错再组拆的战略[6]。而二代测序并没有因而退出组拆舞台,接纳巧妙的文库构建办法如全基因组染色体构象捕捉测序手艺(Hi-C)、在DNA片段上参加高通量的barcode标签测序手艺(10X)等,可以进一步对基因组停止完美晋级,以至使组拆成果到达染色体程度。

说起来,小编最后接触组拆时深切研究的就是Celera Assembler,其时仍是三代测序呈现之初的7.0版本,见证了诸多版本的更新,不能不说,开发人员确实是一往而深(大雾),当为吾辈表率。

Part 3.沧海云帆

组拆的末极目的是得到一个没有间隙(gap)的、单倍体精度的组拆成果,但是目前为行,还没有一个高档动动物的基因组实现如许的目的。即便是研究最完美的人类基因组,目前仍存在800余个gaps。但是那个目的的实现间隔我们已经是触目可及了:测序手艺不竭开展,一代、二代、三代、光学等数据优势互补,使组拆如虎添翼;建库办法不竭改良,Hi-C、10X等办法画龙点睛,助组拆锦上添花。

图3. 测序组拆战略[7]

若是问小编,组拆的将来是什么呢?小编最想看到的是没有组拆!一条DNA从头测到尾,0 gap,不组拆,测出即用。有可能实现吗?让我们一路拭目以待吧。

参考文献

1. Adam M. Phillippy. New advances in sequence assembly.

2. Eugene W. Myers. The fragment assembly string graph.

3. Phillip Compeau. How to apply de Bruijn graphs to genome assembly.

4. Venter et al. The Sequence of the Human Genome.

5. Luo R, Liu B, Xie Y, et al. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler.

6. Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data.

7. Seo J-S, et al. De novo assembly and phasing of a Korean human genome.

相关文章

评论列表

发表评论:
验证码

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。