使用de Bruijn图组装容易出错的长读取
最近在装配长错误倾向的读码(例如由单分子实时技术产生的读码)方面的突破是基于重叠布图共识方法,没有利用de Bruijn图方法的长处来进行基因组装配。此外,这些研究通常假定,de Bruijn图方法的应用仅限于短而准确的读取,而重叠布图共识方法是组装长且容易出错的读取的唯一实用范例。下面我们将展示如何泛化de Bruijn图来装配长错误倾向的读和描述ABruijn汇编器,这将比现有的最先进的算法得到更精确的基因组重建。
当使用单分子实时(SMRT)测序技术生成的第一个读码出现在[18]中时,大多数研究人员对现有算法从容易出错的SMRT读码生成高质量程序集的能力表示怀疑。Roberts et al., 2013[51]甚至将这种广泛存在的怀疑论称为错误神话,并认为需要开发用于易出错读取的新汇编程序来揭穿这个神话。事实上,SMRT和其他最近出现的长读技术的成功的关键挑战在于开发从不准确的读数据中组装基因组的算法。长读技术的先驱,太平洋生物科学公司,现在从容易出错的SMRT读数据中生产精确的组件[7,16]。
Goodwin等人的[19]和Loman等人的[37]证明,高质量的装配体可以从精度更低的牛津纳米孔reads中获得。最近,长易出错读序列的装配和映射技术的进步导致了各种基因组的精确装配[28,29,31],人类基因组复杂区域的重建[15,22],以及复杂串联重复序列[60]的解析。
然而,正如Booher等人在2015年[10]中所阐述的那样,即使在相对较短的细菌基因组的情况下,装配长错误倾向的读序列的问题也远远没有得到解决。SMRT总成的以前的研究都是基于overlap-layout-consensus(共同体)方法[26][40]或类似的弦图方法,需要读取的“所有人针对所有比较[39]并保持计算挑战(见[23岁,33岁的44]这种方法的利弊的讨论)。此外,还有一个隐含的假设,即过去10年主导基因组组装的de Bruijn图法不适用于长读的组装。这是一个误解,因为de Bruijn图方法及其变体a -Bruijn图方法是为了组装相当长的Sanger读取[45]而开发的。
还有一个误解是,de Bruijn图方法只能装配高度精确的读,而在装配容易出错的SMRT读时失败,这是我们在本文中揭穿的另一个错误神话。虽然原始的de Bruijn图方法用于装配是正确的[23,44],但是A-Bruijn图方法最初设计用于装配不准确的读操作,只要读操作之间的相似性能够可靠地识别出来。此外,A-Bruijn图已被证明是有用的,甚至用于组装质谱,这代表高度不准确的肽氨基酸序列的指纹[4,5]。这种a - bruijn图方法将耗时的完整抗体测序变成了一项常规任务[21,59]。然而,虽然A-Bruijn图已被证明在组装Sanger reads和质谱中是有用的,但如何将A-Bruijn图用于组装SMRT reads的问题仍然存在。
De Bruijn图是基因组组装中的关键算法技术[23,9,12,56,61,6]。此外,de Bruijn图已被用于杂交[43]、重复分类[45]、de novo蛋白测序[4,5,21]、synteny block构建[38,46]、多重序列比对[48]、基因分型[25]、免疫球蛋白分类[13]等。A-Bruijn图甚至比de Bruijn图更一般,例如,它们包括断点图,这是基因组重排研究的主力[42,35]。
然而,正如在[34]中所讨论的,de Bruijn图的原始定义远远不能最优地解决装配问题所带来的挑战。下面,我们描述了A-Bruijn图[45]的概念,介绍了用于SMRT读的ABruijn汇编程序(包括使用牛津纳米孔技术生成的读),并演示了它生成准确的基因组重建。
讨论
由于目前正在进行测序的细菌基因组的数量比所有其他基因组测序工作的数量多一个数量级,因此准确地对细菌基因组测序是一个重要的目标。由于短读技术通常无法生成长时间连续的组装(即使是在细菌基因组的情况下),长读通常是跨越重复和生成准确的基因组重建所必需的。
由于传统的汇编器不是为处理容易出错的读而设计的,所以通常的观点是,OLC是能够装配不准确读的惟一方法,并且在执行汇编[7]之前必须对这些读进行错误纠正。我们已经证明,这两个假设都是错误的,并且A-Bruijn方法可以用于从容易出错的SMRT读取中组装基因组。OLC汇编器的运行时间主要由重叠检测步长控制,而ABruijn汇编器的运行时间主要由抛光步长控制,装配步长本身非常快(参见SI10: ABruijn的运行时间)。由于这个错误纠正步骤很容易并行化,ABruijn有潜力成为一个非常快速、可伸缩和准确的SMRT汇编程序。
我们已经证明,ABruijn汇编器对太平洋生物科学和牛津纳米孔读都有效。我们进一步介绍了一种新的错误纠正方法,它不同于以前提出的方法,并产生非常准确的基因组序列。