[本站讯]近日,数学与统计学院教师柳军涛等在生物学国际顶级期刊《Genome Research》发表了题为“TransBorrow: Genome-guided transcriptome assembly by borrowing assemblies from different assemblers”的论文。山东大学(威海)为论文第一完成单位,数学与交叉科学研究中心于婷博士、数学与统计学院穆增超老师为论文共同第一作者,柳军涛为论文通讯作者。
以往研究表明,癌症等复杂疾病与转录过程中的可变剪接密切相关,因此认知转录产物的种类、特异性及表达量对于复杂疾病机理的研究及临床诊断具有重要意义。高通量RNA-seq测序技术为揭示和研究真核生物转录组的复杂结构提供了前所未有的机遇,然而如何从海量测序片段准确高效地拼接出全长转录组,成为目前面临的一个重大挑战。现存的转录组拼接方法准确率都很低,无法满足实质性的应用需求。另外,现存的方法中,并没有任何一个方法可以在所有的数据上都有最佳的表现,而且,给定一个RNA-seq数据,往往很难抉择用哪一个拼接算法是最优的。基于上述考虑,柳军涛课题组联合沙特阿卜杜拉国王科技大学(Kaust)高欣教授课题组以及中国科学院上海方兆元课题组提出了一种全新的拼接策略,并开发出算法TransBorrow,实现了通过借助多种拼接算法的拼接结果达到一致性最优的拼接效果。
TransBorrow算法流程图
该算法TransBorrow首先根据RNA-seq测序片段的回贴构建剪接图(splicing graph),并根据双端测序信息,提取出可靠的双端子路(reliable paired subpaths)。之后,为了借用多种拼接算法的拼接结果达到一致性最优,TransBorrow创造性地根据不同的拼接结果来构建一个全新定义的着色图(colored graph),并从该图中提取可靠的拼接子路(reliable assembly subpaths)。随后,TransBorrow会把这些可靠的拼接子路回贴到原始的剪接图中,找到它们对应于剪接图中的子路。这些子路联合可靠的双端子路将对后续的拼接过程起到准确高效的指导作用。最后,将上述过程中的两类可靠子路作为种子,利用全新的路径搜索算法产生出代表表达转录本的路覆盖,路覆盖中的每一条路代表一个预测出的表达转录本。由于充分结合了不同拼接方法的拼接结果,TransBorrow的拼接将达到一致性最优。
该文章使用了100余组数据(包括模拟数据和真实数据)来验证方法的有效性。在模拟数据上,与经典的拼接算法如StringTie2,Scallop,Cufflinks,StringTie-merge及TACO相比,TransBorrow达到了最高的准确率,并且能够比上述算法提高5.64%到52.29%的转录本重构率。在真实数据上,TransBorrow的优势更加明显,能够比上述算法提高多达14.61%到114.93%的转录本重构率。而且,TransBorrow在重构低表达转录本方面展现出了更大的优势,比如在模拟数据上,TransBorrow比上述方法提高7.3%到146.25%的低表达转录本重构率,在真实数据上提高幅度达到了44.19%到361.22%。另外,TransBorrow在重构长非编码RNA以及单细胞RNA-seq数据转录组方面也展示出了明显的优势。
总的来说,TransBorrow是目前已知的第一个实现通过借用不同拼接算法的拼接结果获取可靠子路,并利用获取的可靠子路来准确指导拼接过程的转录组拼接方法。该方法在大量不同类型数据上验证了其有效性,将在包括癌症在内的与可变剪接相关的复杂疾病研究中起到重要的理论指导作用。
文章链接:https://genome.cshlp.org/content/early/2020/08/17/gr.257766.119