美國索爾克研究所開發出一種名為ShortStop的機器學習框架,用于探索以往“被忽視的DNA區域”,尋找在疾病中發揮關鍵作用的微蛋白。相關研究發表在最新一期《BMC方法學》上。
研究人員與運行中的ShortStop。圖片來源:美國索爾克研究所
這些微蛋白是蛋白質家族中的小型成員,其組成氨基酸通常少于150個,因此難以通過傳統蛋白質分析方法檢測。長期以來,它們隱藏在基因組中被視為“非編碼”或“垃圾DNA”的99%區域中,從未被充分研究。然而,越來越多證據表明,這些區域并非無用,其所編碼的微蛋白在調節健康與疾病過程中扮演重要角色。
傳統研究方法主要關注編碼大型蛋白質的DNA區域,而忽略了可能包含微蛋白編碼指令的小開放閱讀框(smORF)。盡管已有實驗方法識別出了數千個smORF,但這些方法成本高、耗時長,且無法有效區分具有生物學功能的微蛋白與無功能的序列,嚴重限制了相關研究的進展。
ShortStop的出現改變了這一局面。該AI工具通過機器學習訓練,不僅能夠從大型基因數據庫中識別出潛在的smORF,還能預測哪些微蛋白最有可能具備生物學相關性,從而顯著提高研究效率。其核心創新在于采用雙類別排序系統:通過將真實發現的smORF與計算機生成的隨機“誘餌”序列進行比較,ShortStop能夠快速評估新發現的smORF是否可能具有功能性,從而優先篩選出值得深入研究的候選者。
團隊將ShortStop應用于已發布的smORF數據集后,發現約8%的序列可能編碼功能性微蛋白,并已將其列為優先驗證目標。該工具還能識別出以往方法遺漏的微蛋白,包括在人體細胞和組織中實際表達的種類。尤為重要的是,它可直接利用廣泛存在的RNA測序數據,這意味著許多實驗室無需額外實驗即可開展微蛋白研究。
在一項應用實例中,團隊使用ShortStop分析了肺癌相關的遺傳數據,從腫瘤與正常肺組織的對比中識別出210種全新的微蛋白候選者。其中一種微蛋白在腫瘤組織中顯著升高,顯示出作為肺癌生物標志物或治療靶點的巨大潛力,驗證了該工具在疾病研究中的實用性。
本文鏈接:AI新工具探索“被忽視的DNA區域”http://www.sq15.cn/show-11-24181-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 馬斯克旗下腦機公司將在英國啟動腦芯片臨床實驗,幫癱瘓患者用意念控制設備
下一篇: OpenAI牽頭建歐洲最大數據中心之一