重醫(yī)附二院沈偉團(tuán)隊在《Nature Biotechnology》發(fā)表成果 研發(fā)LexicMap軟件破解百萬規(guī)模細(xì)菌基因組序列比對難題
2025-09-10 22:23:30 來源: 第1眼TV-華龍網(wǎng)
超大規(guī)模的微生物序列比速度是多年來困擾感染病學(xué)科與微生物學(xué)科發(fā)展的主要技術(shù)瓶頸之一。2025年9月10日,重慶醫(yī)科大學(xué)附屬第二醫(yī)院感染病學(xué)科沈偉副研究員與歐洲生物信息研究所(EMBL-EBI)Zamin Iqbal教授合作,在國際權(quán)威期刊Nature Biotechnology(IF=41.7)在線發(fā)表了題為“Efficient sequence alignment against millions of prokaryotic genomes with LexicMap”的原創(chuàng)性研究論文。

如同使用搜索引擎在互聯(lián)網(wǎng)上查找網(wǎng)頁一樣,生物學(xué)家也常常需要在已有測序數(shù)據(jù)中搜索感興趣的生物序列,例如公共衛(wèi)生專家需要在全球測序數(shù)據(jù)中搜索攜帶特定抗生素耐藥基因的質(zhì)粒。然而,由于進(jìn)化和突變的存在,查詢序列和目標(biāo)序列往往存在差異,從而需要復(fù)雜的計算——這個過程稱為“序列比對”(Sequence Alignment)。
微生物廣泛存在于自然界及動植物體內(nèi),與環(huán)境和人類健康密切相關(guān)。盡管單個微生物的基因組較小,但其物種數(shù)量龐大且突變速度快,因此呈現(xiàn)出極高的多樣性。近年來,全球微生物序列數(shù)據(jù)持續(xù)、快速增長,例如GenBank數(shù)據(jù)庫中已收錄超過200萬個細(xì)菌和古菌基因組(總計超過10萬億堿基),其規(guī)模遠(yuǎn)超現(xiàn)有序列比對軟件的計算能力。BLAST是自上世紀(jì)90年代起流行至今的經(jīng)典序列比對軟件。然而,即使在云計算的強大計算資源加持下,NCBI網(wǎng)站上的在線BLAST能夠比對的細(xì)菌基因組比例仍在逐年呈指數(shù)級下降,已難以滿足多樣化的生物醫(yī)學(xué)研究需求。
在本研究中,作者開發(fā)了一個全新的序列比對軟件LexicMap,支持在百萬規(guī)模原核(細(xì)菌與古菌)基因組中,對基因、質(zhì)粒、長讀長測序數(shù)據(jù)進(jìn)行準(zhǔn)確、快速、低內(nèi)存的堿基水平序列比對。與現(xiàn)有方法(包括Blastn、Minimap2、MMseqs2、Ropebwt3)相比,LexicMap在保持相當(dāng)準(zhǔn)確性的同時,速度更快、內(nèi)存占用更低、具有更高的可擴(kuò)展性(圖2)。例如,在包含234萬個細(xì)菌與古菌的數(shù)據(jù)庫中,比對1個基因并返回所有匹配結(jié)果僅耗時3到33分鐘,內(nèi)存消耗4到15 GB(使用48線程、數(shù)據(jù)庫存放于機械硬盤中)。
LexicMap使研究人員能夠在單機環(huán)境下,對全球所有已測序拼接的微生物基因組實現(xiàn)準(zhǔn)確而快速的序列比對,這將為流行病學(xué)、生態(tài)學(xué)、進(jìn)化生物學(xué)等領(lǐng)域的研究提供有力支持。

重慶醫(yī)科大學(xué)附屬第二醫(yī)院沈偉副研究員為該論文第一作者與共同通訊作者,歐洲生物信息研究所Zamin Iqbal教授為最后通訊作者;重醫(yī)附二院為第一作者單位。該研究受到國家自然科學(xué)基金、國家留學(xué)基金委、EMBL Visitor/Sabbatical Programme fellowship、重醫(yī)附二院登峰學(xué)科群聯(lián)合項目和寬仁英才等項目的資助。
》》作者介紹:

沈偉,理學(xué)博士,副研究員,碩士生導(dǎo)師(生物信息學(xué)),重慶生物信息學(xué)會常務(wù)理事,在重慶醫(yī)科大學(xué)附屬第二醫(yī)院病毒性肝炎研究所工作。主要研究方向包括微生物基因組、宏基因組、大規(guī)模基因組數(shù)據(jù)檢索等生物信息學(xué)算法設(shè)計與軟件開發(fā);主持國家自然科學(xué)基金面上項目等5項科研項目;以第一和/或通訊作者身份在Nature Biotechnology、iMeta、Bioinformatics等期刊發(fā)表SCI論文9篇,其中2篇影響因子大于30,單篇最高引用2800余次,H-index 21。
責(zé)任編輯:王鳳




發(fā)言請遵守新聞跟帖服務(wù)協(xié)議

