一克土、一片葉、一滴水,均隱藏著人類認知不足1%的微生物世界。
想象一下,如果一種微生物的基因組是一幅拼圖,將成千上萬種微生物的基因組拼圖拆成碎片,并混在一起,而你要在沒有任何參考圖紙的情況下,將它們準確復原——這就是微生物宏基因組分箱技術面臨的終極挑戰。
該概念圖展示了LorBin如何將宏基因組測序的長讀數聚類為高質量的宏基因組組裝(MAG)。黑色背景代表復雜的微生物棲息地,框內散布的拼圖碎片象征長讀數,而框架內由碎片構建出的微生物圖案則象征LorBin成功地將這些散落的基因組序列復原為完整的基因組。受訪者供圖
近日,南京農業大學教授、中國工程院院士沈其榮團隊開發的LorBin算法成功解決了三代宏基因組分箱的共性關鍵技術難題。他們正試圖讓這些“隱形居民”首次擁有清晰的基因身份證。《自然—通訊》在線發表了這一成果。
地球生命的未知版圖
微生物看不見、摸不著,卻與人類生活緊密相連。論文共同通訊作者、南京農業大學教授韋中向記者展示了一份令人震撼的數據:一克土壤中活躍著數以億計、種類復雜的微生物。
“微生物組被稱為地球生命的‘暗物質’,是因為目前仍有超過99%的微生物無法在實驗室條件下分離培養。”韋中說。
在醫學領域,微生物基因組信息可用于鑒定疾病相關的生物標志物,為疾病早期診斷和精準治療提供新依據;在農業領域,通過解析作物根際微生物基因組,可以挖掘出能夠促進作物生長的有益菌株;在環境修復領域,基因組數據可用于篩選具有高效污染物降解能力、參與生物地球化學循環的功能微生物,為污染治理與生態恢復提供生物技術支撐。
通過破解微生物基因組的信息,人們不僅能夠識別環境中已知與未知的微生物種類,還可以直接從基因序列預測其潛在的生理功能、代謝通路,以及微生物與宿主或環境間的相互作用機制。
“微生物研究將從描述性的物種組成分析,邁入功能機制探索的階段。”韋中說。
宏基因組測序技術成為破解這一難題的關鍵途徑。特別是三代測序技術的發展,讓堿基序列的檢測長度更長、質量更高。“短讀長測序如同將一本書撕成無數碎片,難以拼回原貌;而長讀長技術則能直接獲取完整的‘段落’甚至‘章節’。”論文共同通訊作者、南京農業大學資源與環境學院副教授江高飛解釋道。
然而,技術突破背后隱藏著嚴峻的瓶頸問題。江高飛指出,三代宏基因組測序分析面臨原始數據量龐大、堿基序列錯誤率高,以及分析算法不完善等挑戰。“尤其是在分箱重構高質量單菌基因組這一關鍵環節,傳統工具如同為超級顯微鏡配了個老花鏡,造成了信息資源的巨大浪費。”
論文共同第一作者、南京農業大學智慧農業學院(人工智能學院)副教授薛衛解釋道,所謂“宏基因組分箱”的核心目標是從復雜微生物群落中重構出高質量的單菌的基因組。這個過程需要將測序得到的堿基序列進行組裝,形成更長的序列片段,隨后將這些片段分配到若干個“箱”中。在理想情況下,每個箱對應一個微生物的基因組。
“看似簡單,實則挑戰巨大。”韋中說,“既要克服復雜微生物群落中物種組成與豐度的不確定性,又要有效區分高度相似近緣物種,甚至菌株水平的遺傳變異規律。”
為微生物基因組拼圖裝上“AI眼睛”
面對這些挑戰,資源與環境科學學院LorMe實驗室與智慧農業學院(人工智能學院)BioAI實驗室展開了跨學科合作。薛衛形象地描述了他們的創新思路:“傳統方法就像是在黑暗中盲目拼圖,而我們要做的是給這個過程裝上‘AI眼睛’。”
LorBin的核心創新在于深度融合了多項前沿AI技術:生成式AI、無監督學習、深度學習和注意力機制等。薛衛進一步解釋道:“這項研究中主要有四大技術突破,對應分箱過程中的每個關鍵難點。這使得LorBin的內核擁有一個能夠自主學習和智能決策的‘AI大腦’。”
第一項創新是適配變分自編碼器。薛衛打了個比方:“這就像教AI識別帶有方言的普通話——它能夠自動過濾三代測序數據中的‘噪聲’,提取出穩健的、可用于區分不同微生物的深層序列特征。徹底擺脫了對人工設計特征的依賴,實現了對數據本質更智能的解讀。”
第二項突破是兩階段多尺度自適應迭代聚類算法。韋中用顯微鏡對焦來比喻,首先用“低倍鏡”快速鎖定大目標,分離出高豐度物種;然后再自適應的調整,用“高倍鏡”精細挖掘那些數量稀少但重要的稀有微生物。這顯著提升了新物種的發現能力。
在質量評估環節,團隊引入了單拷貝基因集等信息引導的循環分箱質量評估模型。“這相當于在裝配線上設置了質檢員,對每個‘產品’進行實時檢測,確保基因組不被混淆或錯誤分裂。”江高飛說。
令人耳目一新的是第四項創新:采用Transformer模型評估高維數據的空間分布特征。“不同微生物的數據在空間中呈現不同形態,有的像蘋果般飽滿,有的則像月牙般有缺口。理解這種凹凸性直接關系到分類算法的選擇。”論文共同第一作者、已畢業研究生劉佐解釋說。
“這些技術共同構成一個完整解決方案,使其在重構基因組的完整度、純度及發現新物種方面均實現顯著提升。”江高飛說。
基準測試結果令人振奮。LorBin整體優于以往6種高性能深度學習算法,重構的高質量單菌基因組比現有工具多15-189%,意味著從相同樣本中能挖掘出成倍增加的完整、純凈的微生物基因組,極大地擴展了可研究的微生物。
而LorBin識別特有物種數量更是其他工具的2.4~17倍,直接體現了其在探索微生物“暗物質”上的較大優勢。這些提升為功能基因挖掘、微生物生態機制解析等領域打開了新窗口,有望推動微生物組學研究進入“看得更多、看得更清、發現更新”的階段。
薛衛強調:“LorBin具有良好的硬件適配性,只需配備常規GPU的Linux計算機就能順暢運行,極大降低了使用門檻。”
從實驗室“照進”現實
薛衛向《中國科學報》特別強調了這一工具的開源價值:“我們已將LorBin的代碼在GitHub平臺全面公開,并結合多種工具和模塊搭建了智能分析流程。”
這種開源共享的理念,正是團隊跨學科合作精神的延伸。回顧研發歷程,薛衛感慨道:“LorBin的誕生,源于LorMe實驗室與BioAI實驗室的‘雙向奔赴’。這并非簡單的技術嫁接,而是一次生物學與人工智能的深度對話。”
BioAI實驗室如同一位“算法建筑師”,手握深度學習工具,致力于構建精妙的計算模型;而LorMe實驗室則像是“微生物向導”,憑借對微觀世界的深刻洞察,確保每一次模型迭代都直指真實的生物學難題。
合作中最難忘的,并非技術瓶頸,而是跨越那道無形的“語言巴別塔”。對BioAI而言,挑戰在于如何將復雜的生命現象“翻譯”成機器能理解的數學語言;對LorMe而言,則需要解讀每一個算法決策背后所隱藏的生物學意義。
不過,LorBin的突破不僅體現在技術指標上。
在醫學領域,LorBin展現出強大的病原體檢測能力。團隊利用該工具對104個腸道樣本進行分析,成功復原了3194個中高質量的微生物基因組,從中識別出477個潛在的病原菌物種。
“例如肺炎克雷伯菌,由于長期暴露于抗生素選擇壓力下,進化出強大的抗性基因。而像Leclercia adecarboxylata這種新發現的致病菌,雖然本身破壞力不強,卻能攜帶并傳播高風險抗性基因。”薛衛表示,這種精準識別能力為臨床防控提供了關鍵線索。
在農業領域,LorBin正在改變傳統的微生物組研究范式。韋中指出:“過去我們只知道‘土壤里有好細菌’,而現在能精準鎖定那些負責固氮、解磷、促進作物生長的‘明星菌株’。”
這一突破為農業微生物肥料研發提供了新思路。通過解析作物根際微生物基因組,研究人員可以挖掘出能夠促進作物生長的有益菌株,實現在不改變作物基因的前提下提高產量。
環境監測是LorBin的另一重要應用場景。該工具能夠完整描繪污染物被微生物降解的路徑圖,并能準確識別環境中耐藥基因的攜帶者及其傳播網絡。
“這對于評估環境風險、阻斷耐藥性擴散提供了關鍵情報。”江高飛說。
LorBin推動了微生物組研究從“觀測時代”向“發掘與創造”的轉變。“它使我們能夠窺見此前被遮蔽的、數量稀少但功能關鍵的低豐度微生物,這些微生物往往是驅動整個生態系統運轉的‘核心引擎’。”韋中說。
相關論文信息:https://doi.org/10.1038/s41467-025-64916-8
本文鏈接:從盲目拼圖到智能復原:AI照亮生命的未知版圖http://www.sq15.cn/show-11-28477-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 徐揚生院士:讀書愈多,常常愈難創新