目前组装转录本遇到的挑战:1. 转录本表达高低差异大;2. Reads覆盖转录本不均匀;3. 测序错误;4. 相邻转录本组装时导致形成奇怪的转录本;5. 由于可变剪切所以要适应相应的不同转录本;6. 重复序列。
然后介绍了基于基因组的转录本组装方法Mapping-first(依赖于read比对的准确性,且大数据量reads导致判定错误)和直接组装方法Assembly-first,比较有效的解决方案是构建de Bruijn路径图。构建de Bruijn路径图关键在于:1. 从大数据中构建有效的路径;2. 建立一个可评估的得分体系和算法用来评估合适的转录本亚型;3. 构建一个能从测序错误和其他人为错误中剔除噪声的健壮的方法。
首先Inchworm使用k-mer算法进行快速有效的组装,其能覆盖一个单一的转录本包含一些可变剪切变异转录本共用k-mer的集合。然后Chrysalis对这些转录本进行聚类,并对这些类进行构建de Bruijn路径图,每条路径反映了这些变异转录本重叠部分的复杂度。最后Butterfly用相关reads分析路径图,并报告可信的转录本序列,解析不同转录本亚型和来源同一gene的转录本。
大概需要300G内存,20Mreads17h,60Mreads36h,100Mreads60h。