近日,中國(guó)科學(xué)技術(shù)大學(xué)生命科學(xué)與醫(yī)學(xué)部瞿昆教授課題組、北京生命科學(xué)研究所黎斌研究員課題組,以及中國(guó)科學(xué)技術(shù)大學(xué)數(shù)學(xué)科學(xué)學(xué)院陳發(fā)來(lái)教授課題組聯(lián)合完成了一項(xiàng)大規(guī)模研究。他們通過(guò)對(duì)百萬(wàn)量級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)進(jìn)行分析,系統(tǒng)評(píng)估了14種單細(xì)胞模態(tài)預(yù)測(cè)算法和18種單細(xì)胞多組學(xué)整合算法的性能。該研究成果以題為“Benchmarking algorithms for single-cell multi-omics prediction and integration”的論文,于2024年9月25日在線發(fā)表于國(guó)際知名學(xué)術(shù)期刊《Nature Methods》。

單細(xì)胞多組學(xué)技術(shù)(如CITE-seq、REAP-seq、SHARE-seq和10x Multiome等)的發(fā)展,為深入理解細(xì)胞功能和復(fù)雜的基因調(diào)控機(jī)制提供了前所未有的機(jī)遇。然而,濕實(shí)驗(yàn)方法通常伴隨高成本、數(shù)據(jù)質(zhì)量有限以及批次效應(yīng)等挑戰(zhàn)。為克服這些局限,生物信息學(xué)家基于統(tǒng)計(jì)模型和人工智能技術(shù),開發(fā)了多種算法。這些算法不僅能夠利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)推斷同一細(xì)胞內(nèi)的蛋白質(zhì)豐度和染色質(zhì)可及性信息,還通過(guò)將不同模態(tài)的數(shù)據(jù)映射到統(tǒng)一的特征空間實(shí)現(xiàn)數(shù)據(jù)整合,去除批次效應(yīng)。這些工具大大提升了現(xiàn)有單細(xì)胞數(shù)據(jù)的解析能力。然而,面對(duì)海量數(shù)據(jù)和眾多算法,研究人員往往難以判斷哪些工具最適合他們的研究,因此,對(duì)這些算法進(jìn)行基準(zhǔn)測(cè)試(benchmarking)尤為重要。
在本次研究中,團(tuán)隊(duì)收集了來(lái)自47個(gè)數(shù)據(jù)集的上百萬(wàn)個(gè)單細(xì)胞多組學(xué)數(shù)據(jù),涵蓋多個(gè)生物樣本和實(shí)驗(yàn)平臺(tái)。他們?cè)O(shè)計(jì)了一套全面的評(píng)估流程,結(jié)合算法的準(zhǔn)確性、魯棒性和計(jì)算資源消耗等多維度指標(biāo),系統(tǒng)評(píng)估了領(lǐng)域內(nèi)最常用的算法。結(jié)果顯示,在蛋白質(zhì)豐度預(yù)測(cè)方面,totalVI和scArches表現(xiàn)最為優(yōu)異;在染色質(zhì)可及性預(yù)測(cè)中,LS_Lab算法排名領(lǐng)先。在多組學(xué)整合分析中,Seurat、MOJITOO和scAI在垂直整合上表現(xiàn)突出,而totalVI和UINMF在水平整合和馬賽克整合任務(wù)中展現(xiàn)了卓越性能。這一研究不僅為算法設(shè)計(jì)提供了新思路,還為未來(lái)多組學(xué)數(shù)據(jù)的分析和應(yīng)用奠定了重要基礎(chǔ)。為幫助科研人員選擇合適的分析工具,研究團(tuán)隊(duì)在GitHub上發(fā)布了完整的分析流程、代碼和測(cè)試數(shù)據(jù)集,供同行使用和改進(jìn)。
研究團(tuán)隊(duì)還通過(guò)深入探討這些算法的數(shù)學(xué)原理,發(fā)現(xiàn)降噪處理是提高單細(xì)胞數(shù)據(jù)預(yù)測(cè)精度的關(guān)鍵。在性能評(píng)估中,機(jī)器學(xué)習(xí)算法(如基于奇異值分解的LS_Lab和Guanlab-dengkw)以及基于概率模型的深度學(xué)習(xí)算法(如totalVI)均表現(xiàn)出顯著優(yōu)勢(shì)。然而,研究還指出,現(xiàn)有模態(tài)預(yù)測(cè)算法在某些關(guān)鍵蛋白的預(yù)測(cè)性能上仍有待提升,染色質(zhì)可及性預(yù)測(cè)的準(zhǔn)確性也需進(jìn)一步優(yōu)化。

圖.評(píng)估流程示意圖
該研究由瞿昆教授、黎斌研究員和陳發(fā)來(lái)教授共同指導(dǎo)并擔(dān)任通訊作者,博士后胡銀雷、博士生萬(wàn)思遠(yuǎn)和羅袁涵宇為共同第一作者。該研究得到了國(guó)家自然科學(xué)基金、科技部重點(diǎn)研發(fā)專項(xiàng)等多項(xiàng)資助,中國(guó)科學(xué)技術(shù)大學(xué)超級(jí)計(jì)算中心及生命科學(xué)學(xué)院生物信息學(xué)中心為項(xiàng)目提供了關(guān)鍵計(jì)算資源支持。
在組學(xué)大數(shù)據(jù)時(shí)代,對(duì)復(fù)雜數(shù)據(jù)的精確解析需要依賴生物學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)的深度融合??鐚W(xué)科合作不僅推動(dòng)了生物醫(yī)學(xué)領(lǐng)域的創(chuàng)新發(fā)展,也為未來(lái)研究提供了新的可能性。此次研究的成功正是多學(xué)科背景團(tuán)隊(duì)密切合作的結(jié)果,充分展示了學(xué)科交叉在現(xiàn)代生物學(xué)研究中的重要性。通過(guò)這樣的合作,研究團(tuán)隊(duì)期望進(jìn)一步推動(dòng)單細(xì)胞多組學(xué)技術(shù)在科學(xué)研究中的廣泛應(yīng)用,為基礎(chǔ)研究和臨床應(yīng)用提供新的洞見。
論文鏈接:https://www.nature.com/articles/s41592-024-02429-w
(生命科學(xué)與醫(yī)學(xué)部、數(shù)學(xué)科學(xué)學(xué)院、科研部)