当前位置: 首页 > 工具软件 > MeCat > 使用案例 >

MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing reads

山鸿彩
2023-12-01

MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing reads

MECAT:用于单分子测序的快速映射、错误校正、从头组装

我们提出了一种结合快速映射、纠错和从头组装(MECAT;访问https://github。用于处理单分子测序(SMS)读取。MECAT的计算效率优于现有的工具,而计算结果与现有的计算结果相当或有所提高。MECAT可以在一台计算机上使用SMS读取来实现大型基因组的参考映射或从头组装。

SMS技术是由太平洋生物科学公司和牛津纳米公司等公司开发的,它的读断长,在基因组学研究中具有许多优势。虽然SMS在小细菌基因组学和古细菌基因组学中得到了广泛的应用,但是将SMS应用于中、大基因组却产生了较高的计算成本。

配对和参考基因组比对步骤是非常昂贵的计算SMS读取。通常,基于k-mer匹配的方法首先过滤掉随机读对,然后快速找到种子对齐。然而,由于生物基因组的高度重复性,从重复区域取样的reads可能导致大量的k-mer匹配,从而导致候选匹配过多。简单地屏蔽低复杂度序列,或者忽略高度重复的k-mer匹配,可能会导致丢失正确的重叠。因此,需要进行局部比对才能找到匹配良好的读序列或最佳匹配的基因组位置。在BLASR中,k-mer对的最佳排列是通过缓慢的稀疏动态程序求解的。即使使用快速线性局部比对程序(如DALIGNER中的diff),两个长SMS读取之间或一个SMS读取与一个参考基因组之间的局部比对的计算成本仍然很高。在短消息读取的成对和参考基因组比对中,过多候选匹配的局部比对占用了高达70%的计算时间。最近,Canu管道采用了一种词频逆文档频率k-mer加权方法来减少重复k-mer匹配的影响。但是,Canu没有考虑k-mer对的排列。因此,仍然有许多过度匹配。

同时,许多SMS应用程序,如SMS读校正和基因组组装,只需要有限的匹配读数。由于基因组的重复性,匹配k-mer对的数量与重叠长度并不对应,因此不能作为直接选择高质量、可靠匹配的标准。为了筛选大量的候选匹配,需要进行局部对齐,这极大地增加了SMS读取校正和基因组组装的计算成本。

在这里,我们开发了一种伪线性对齐评分算法来过滤过多的对齐(图1a-e)。种子k-mer对的得分由所有匹配的k-mer对及其间隔距离支持。因此,这些分数表示两个SMS读取之间或一个SMS读取与参考基因组之间的全局匹配信息。在来自四个不同基因组的PacBio数据中,读对之间的种子k-mer对得分随着它们重叠的长度线性增长(图1f)。因此,通过选择得分较高的短信阅读对,我们可以过滤掉非信息性的候选对齐。在使用DDF评分进行过滤后,我们将候选对齐减少了50%到70%,然后使用diff进行进一步的局部对齐(图1g),这使得比对器比没有使用DDF评分过滤的更快。

基于我们的DDF对齐评分算法,我们开发了一个名为MECAT的快速对齐器,它可以在有或没有本地对齐的情况下运行。我们首先评估了MECAT对准器在成对对准方面的性能。我们将MECAT aligner与FALCON中的MHAP(v2.12)和DALIGNER(v0.40)中的两个SMS读取成对对齐工具进行了比较。对于5个PacBio数据集,具有局部比对的MECAT aligner比MHAP和DALIGNER都快(Table1)。对于大型人类基因组的PacBio数据,MECAT aligner比MHAP-fast快5个,比DALIGNER快17个。对于三个纳米孔数据集,局部对齐的MECAT对准器比MHAP-fast和MHAP-sensitive都快,但比DALIGNER慢(Table1)。由于Nanopore数据的错误率较高,我们降低了MECAT的阈值,以获得足够的候选匹配,以便以后进行纠错,从而减慢了MECAT的速度。同时,对于PacBio和Nanopore数据集,没有局部对齐的MECAT对准器比其他对准器都要快得多(Table1)。DDF对齐分数的另一个重要好处是,我们可以仅根据DDF分数为给定的读取模板选择可靠匹配的读取。因此,当只需要顶级候选匹配时,我们可以省略局部对齐步骤,这可以显著降低SMS应用程序的计算成本。此外,MECAT使用的内存与DALIGNER类似,但比MHAP少得多(Supplementary Table1)

我们使用三个模拟的PacBio数据集(大肠杆菌、酵母和人类chr1),评估了比对器成对比对的敏感性和准确性(Supplementary Notes 1 and 2 and Supplementary Table 2)。由于每个模拟读序列在参考基因组中的起始位置和结束位置都是已知的,因此我们可以计算出所有读序列之间真正的成对重叠关系。在四种对准器中,DALIGNER17的灵敏度最好,但精度最低。对于人类的chr1数据集(9.1%的精度),DALIGNER的精度和灵敏度变得高度不平衡。相反,MHAP具有高精度、低灵敏度的特点。MECAT对准器的灵敏度始终高于MHAP对准器,但保持了相近的精度。与DALIGNER相比,MECAT对准器具有更高的精度和更低的灵敏度。MECAT aligner在小基因组和大基因组的灵敏度和精密度之间取得了很好的平衡。

DDF比对分数对读基因组和参考基因组的重叠长度敏感;因此,MECAT aligner也适用于将SMS读取对齐到参考基因组。我们将MECAT aligner与BLASR(v1.3.1.142244)进行SMRT分析(v2.30)和bwam-mem(v0.7.12-r1044)进行比较,以作为参考基因组比对(Supplementary Note3)。四PacBio小基因组数据集(大肠杆菌、酵母、拟南芥和黑腹果蝇),MECAT对准器35-65x速度比BLASR和18-70x速度比BWA-mem(Table1),人类基因组数据集,PacBio MECAT对准器是12x比BLASR和4x比BWA-mem快。对于三个小基因组的纳米孔数据集(大肠杆菌、炭疽杆菌和鼠疫杆菌),MECAT比BLASR快2-5x倍,比BWA-mem快4到6x倍。对于相同的对齐位置,三种算法的映射重叠率高达95% 99%(Supplementary Note 3 and Supplementary Fig. 1),表明MECAT对准器具有较高的置信度。我们比较了灵敏度、精度和覆盖范围的调整器使用20xPacBio模拟数据集的大肠杆菌,酵母,和人类基因组(Supplementary Table 3)。相比之下,BLASR BWA-mem, MECAT对准器数量略低的读取映射到参考基因组,但是它映射更正确地读取所有三个数据集。MECAT在具有较大结构变异的区域也具有类似的读取覆盖率(Supplementary Note 4 and Supplementary Table 4)。MECAT aligner可以快速地将SMS读取对齐到参考基因组,同时保持高灵敏度、高精度和覆盖率。

在其他应用程序中使用高错误的SMS读取之前,必须纠正它们。修正读通常由许多匹配读的一致意见构建而成。MECAT aligner允许我们快速地选择候选读取而不需要局部对齐。我们开发了一个快速纠错工具在MECAT使用我们的快速对准(见Online Method)。实验表明,在4个PacBio数据集上,MECAT的校正速度比fc_conconsus快4-10x,比FalconSe快5-21x。对于三个纳米孔数据集,MECAT的校正速度比FC_Consensus高1.06~7x,比FalconSense高1.6~11x。此外,MECAT对大多数数据集的校正精度较高(Supplementary Note 5 and Supplementary Table 5)

由于DDF比对分数与两个读取之间的重叠大小相关,因此我们能够使用MECAT aligner来替代Canu (v1.0)中的慢覆盖层,从而开发出一种快速从头组装管道。MECAT对准器显著缩短了重叠群结构的计算时间。计算成本的减少在重叠,纠错,和重叠群建设步骤启用MECAT新创汇编重建人类CHM1基因组7737个中央处理单元(CPU)小时,这是比PBcR-MHAP-fast11快24.9×  56.3×速度比PBcR-MHAP-sensitive和5.1×速度比Canu (v1.3) 14(Supplementary Notes 6 and 7 and Supplementary Table 6)。我们还使用MECAT在32核计算机上用102×PacBio测序reads在25 d内组装了一个二倍体汉基因组(Supplementary Notes 6–8)

 类似资料:

相关阅读

相关文章

相关问答