在真核生物中,RNA轉錄、剪接、翻譯和降解等生物學過程受到順式調控元件、RNA結構和反式作用因子的調控。解析RNA多層次調控,對研究基因表達分子機制和設計RNA藥物具有重要意義。但是,由于調控復雜和數據量不足,構建RNA調控的預測模型面臨挑戰。
近日,中國科學院上海營養與健康研究所研究員張國慶聯合南方科技大學講席教授王澤峰團隊,構建出基于深度神經網絡的預訓練模型,可微調預測pre-mRNA剪接位點、mRNA翻譯效率、mRNA降解率和內部核糖體進入位點(IRES)等RNA調控相關的下游任務,揭示了RNA中調控元件的序列特征,鑒定出新型翻譯調控元件,為探討RNA調控機制和優化RNA生物醫學應用提供了新工具和新思路。
研究團隊設計并訓練了基于多層transformer編碼器架構的RNA語言模型LAMAR。研究下載處理約1500萬條哺乳動物和病毒的基因和轉錄本序列,通過掩碼學習進行無監督預訓練,預先提取RNA序列特征;同時使用含有標簽的數據集微調模型,實現RNA調控高效預測。
該研究測試了LAMAR模型在多個下游任務中的性能。在mRNA翻譯效率和降解率預測任務中,LAMAR模型分別取得0.66和0.65的Spearman相關系數指標,相比最優基線模型提升7%和8%。在剪接位點預測任務中,LAMAR模型取得0.96的PR-AUC指標,與最優基線模型SpliceAI性能相當。
進一步,團隊使用公開數據集微調模型預測病毒和真核IRES,取得0.985的AUROC指標。研究預測RNA病毒基因組中潛在的新IRES,并在多個細胞系中測試其中305條序列驅動環形RNA翻譯的效率。研究發現序列的預測概率與翻譯活性呈正相關,提示模型具有模擬篩選新型調控元件的能力。
9月24日,相關研究成果在線發表在《基因組生物學》(Genome Biology)上。研究工作得到國家重點研發計劃、國家自然科學基金、中國科學院戰略性先導科技專項(B類)等的支持。
目前,LAMAR模型已上傳至Github(https://github.com/rnasys/LAMAR)供研究人員使用。
論文鏈接
LAMAR模型架構及研究流程圖
本文鏈接:科研人員開發出RNA基礎語言模型http://www.sq15.cn/show-12-1868-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: FAST銀道面中性氫巡天研究取得新突破
下一篇: 二氧化碳制可持續燃料研究獲進展