[本站讯]近日,数学与交叉科学研究中心团队在纳米孔多样本测序问题上取得新进展,相关研究成果已经在Genome Biology以及Fundamental Research等期刊上发表。
图1 HycDemux的工作流
图2 TDFPS-Designer的工作流
其中,中心博士研究生祁俊海在Genome Biology上连续发表了两篇题为“HycDemux: a hybrid unsupervised approach for accurate barcoded sample demultiplexing in nanopore sequencing”和“TDFPS-Designer: an efficient toolkit for barcode design and selection in nanopore sequencing”的研究论文。这两篇论文分别提出了两种算法,即HycDemux算法以及TDFPS-Designer算法。HycDemux是一种结合了 GPU 并行的混合聚类算法,该算法使用纳米孔信号和 DNA 序列进行精确的数据聚类,并结合了基于投票的模块来确定解复用结果。全面的实验表明,HycDemux在短序列片段聚类方面优于无监督工具,并且比目前最先进的复杂多样本测序数据解复用工具的性能更强大。TDFPS-Designer是一种用于纳米孔测序条形码设计的新工具包,它可以创建更多条形码,数量远远超过牛津纳米孔测序公司的产品。它包括基于GPU的加速,可实现超快速解复用,并设计适用于高错误纳米孔测序数据的强大条形码。TDFPS-Designer 优于当前方法,与 Guppy 相比,解复用召回率提高了20%,而精度没有降低。这两项研究的第一单位与通讯单位均为山东大学数学与交叉科学研究中心,合作方包括沙特阿卜杜拉国王科技大学教师高欣及北京理工大学教师张法,山东大学数学与交叉科学研究中心2024届硕士研究生毕业生李正奕为 TDFPS-Designer 的共同第一作者。
图3 PRO的工作流
同时,中心博士研究生任梓彤在Fundamental Research上发表题为“Generating barcodes for nanopore sequencing data with PRO”的研究论文,从另一个角度对纳米孔barcode的可选择的空间进行了研究。论文从组合数学角度详细推导并证明了在条形码长度确定的情况下,设计包含最大数目的条形码套件是NP-complete问题。在实际应用上,为了更好地度量两个序列之间的差异性,文章提出了一种两个DNA序列差异性的新度量——概率差异性(Probability Divergence),并验证了概率差异性能比传统编辑距离(Levenshtein Distance)更加准确的度量出两个DNA序列之间的差异性。基于概率差异性,本文结合最远点采样算法设计出可以产生和解复用条形码的软件包。在与纳米孔官方提供的条形码相同的长度下,PRO设计了大小为2292的条形码套件,远超纳米孔官方提供的条形码数目,并在该条形码套件上实现98.29%的解复用精度,表现比纳米孔官方的解复用工具Guppy更出色。该项研究由山东大学数学与交叉科学研究中心教师韩仁敏、李国君,沙特阿卜杜拉国王科技大学教师高欣担任通讯作者,山东大学数学与交叉科学研究中心教师于婷为共同第一作者。