互聯網有谷歌,如今生物學領域有了MetaGraph。這款搜索引擎能快速篩選存儲于公共數據庫的海量生物數據。相關研究成果10月8日發表于《自然》。
MetaGraph會為海量DNA、RNA和蛋白質序列檔案建立索引。圖片來源:Andrew Brookes/Connect Images/Science Photo Library
“這是一項了不起的成就。”法國巴斯德研究所的Rayan Chikhi表示,“他們為分析原始生物數據設定了新標準。”
這些數據包括DNA、RNA和蛋白質序列,其來源數據庫可包含萬億級的DNA堿基,數據量以拍字節計(1拍字節=1000萬億字節),條目數量甚至超過谷歌龐大索引中的所有網頁。
盡管MetaGraph被貼上“DNA領域的谷歌”標簽,但Chikhi更傾向于將其比作“YouTube專用搜索引擎”,因為它背后的計算任務難度更高。
就像在YouTube上搜索時,能夠檢索到所有以“紅色氣球”為特征的視頻,即便標題、標簽或描述中未出現這一關鍵詞。MetaGraph同樣無需提前對基因模式進行明確標注,就能找到隱藏在龐大測序數據集深處的基因模式。Chikhi說:“它實現了其他任何方法都無法完成的事情。”
開發MetaGraph的初衷是為了解決測序數據集的可及性問題。過去幾十年間,生物數據庫的規模呈爆炸式增長,但這種增長也給使用這些數據的科學家帶來了挑戰——原始測序讀數呈現碎片化、噪聲多的特點,且數量龐大,無法直接進行檢索。
加拿大多倫多大學的Artem Babaian指出:“矛盾的是,數據量反而成了我們實際使用這些數據的最大障礙。”
論文共同通訊作者、瑞士蘇黎世聯邦理工學院的André Kahles表示,MetaGraph能夠幫助研究人員對序列讀取檔案庫(SRA)這類數據庫展開生物學相關問題的探索。SRA作為公共數據庫,包含的DNA堿基已超過1億億個。
研究團隊借助數學“圖譜”解決了數據檢索難題。這種圖譜能將重疊的DNA片段連接起來,就像圖書索引里那些包含相同詞匯的句子會被歸在一起一樣。
研究人員整合了7個公共資助數據庫的數據,構建出涵蓋病毒、細菌、真菌、植物、動物,也包括人類的所有生物類群的序列集,其中包含1880萬個獨特的DNA和RNA序列集,以及2100億個氨基酸序列集。同時,他們還為這些序列開發了一款搜索引擎,用戶只需通過文本提示,就能檢索這些整合后的原始數據檔案。
“這是一種與這類數據交互的全新方式。”Kahles說,“數據雖然經過壓縮處理,但可實現即時訪問。”
為證明MetaGraph的實用價值,研究團隊利用該工具,對全球241384個人類腸道微生物組樣本進行了檢索,旨在尋找抗生素耐藥性的基因標志物。這項研究是在前期工作基礎上開展的。此前研究人員曾利用舊版MetaGraph,追蹤過全球主要城市地鐵系統中細菌菌株的耐藥基因。據團隊介紹,在高性能計算機上完成這項分析僅需約1小時。
MetaGraph并非目前唯一一款大規模序列檢索工具。例如,Chikhi和Babaian共同開發了一個名為Logan的平臺,該平臺能將數十億條短測序讀數拼接成更長、更規整的DNA片段。這種設計架構使其能在比MetaGraph更大規模的測序讀數集合中,識別出完整基因及其變異類型。不過這一優勢也伴隨著一定的取舍。Chikhi表示:“我們的工具功能較少,但性能更強。”
憑借更廣的檢索范圍,Logan幫助研究人員發現了超2億個天然存在的“噬塑酶”變體,這些變體來源于多種細菌、真菌和昆蟲,其中部分變體的活性甚至優于實驗室設計的酶。9月,Chikhi和Babaian將這一發現公布于預印本bioRxiv。
此外,研究人員還曾利用一款更早、功能更專一的病毒DNA數據庫檢索工具,發現了大量此前未被記錄的病毒,以及用于治療癌癥的工程化T細胞療法中的病毒污染物。
Babaian認為,這類發現的實現離不開開源檢索工具及其依托的公共測序數據庫。目前,一些生物數據庫正面臨資金削減的威脅,他強調,這些檢索技術的創新恰恰凸顯了“開放數據共享至關重要”。
“這些資源正推動全球科學進步。”Babaian說,“它們正在開啟一個全新的‘拍字節級基因組學’領域,而其中最具影響力的應用尚未出現。”
相關論文信息:https://doi.org/10.1038/s41586-025-09603-w
https://doi.org/10.1101/2024.07.30.605881
本文鏈接:“DNA領域的谷歌”來了http://www.sq15.cn/show-11-26777-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇: 今年8月赴美國際學生數量同比下降19%