隨著單細胞和空間組學技術的快速發展,公開可共享數據量已突破億級大關。然而,技術平臺產生的差異、復雜疾病狀態、跨物種研究帶來的批次效應和離群細胞等,對數據解讀構成挑戰。面對動輒百萬規模的離群細胞,傳統的“先聚類、后注釋”分析方法難以快速、精準且可解釋地將這些“身份不明”的細胞映射到參考細胞圖譜上,進而制約單細胞數據在跨大規模人群隊列研究、多模態信息整合以及物種間保守性探索等領域的應用潛力。因此,亟需高效實現細胞的數字化表征、整合與解析。
針對上述問題,中國科學院北京基因組研究所(國家生物信息中心)研究員蔣嵐團隊聯合新加坡國立大學教授劉鈿渤、加拿大麥吉爾大學教授李岳,研發了一款高效、泛化且可解釋的有監督細胞表征和解析模型——CellMemory。該模型受全局工作空間理論啟發,對傳統Transformer架構進行改造,即植入低維記憶空間并通過Cross-Attention機制將高維基因特征壓縮、競爭及廣播。研究顯示,該模型可提高計算效率3至5倍,并顯著增強模型泛化能力,無需預訓練即可實現單細胞數據跨平臺與物種整合。同時,記憶空間可為CellMemory帶來分層式“可讀窗口”。其中,L1 (Gene Level)為面對特定細胞,研究可知單個基因對目標細胞表征的貢獻分數;L2(Gene Program Level)為模型在記憶空間中,自動歸納協調的共表達/共調控模式。多層可解釋性為理解模型決策邏輯與探索表型關聯細胞狀態提供了可靠解決方案,即“高準確性 + 強可解釋性”。
進一步,研究人員將CellMemory與3個單細胞基礎大模型、16個任務專用模型在1500萬細胞上進行比較。基準評測結果顯示,CellMemory在人群尺度的單細胞數據整合、超高分辨率細胞狀態注釋等任務中均取得了State-of-the-Art級別的表現。同時,面對59張共含400萬細胞、338個細胞亞群的MERFISH小鼠腦空間組學切片,與基于傳統transformer架構預訓練的單細胞基礎大模型相比,CellMemory在95%的空間切片上展現領先的注釋表現,準確率較傳統機器學習方法提升30%,證明了CellMemory較好的泛化能力。
當前,將疾病細胞與健康細胞比對存在挑戰。得益于準確與可解釋的細胞表征,研究人員利用CellMemory在多個癌癥隊列單細胞圖譜中解析疾病復雜性。例如,在肺腺癌隊列中,該模型基于參考圖譜定位到MSLN+?CAPN8+的肺泡2型過渡態細胞,并觀測到其顯著的拷貝數變異,提示肺腺癌或利用肺泡2型細胞可塑性獲得侵襲能力。同時,在混合表型急性白血病、髓母細胞瘤等數據中,該模型基于健康參考圖譜,揭示了不同患者潛在的異質性起源,為耐藥和預后研究提供了高分辨率數據解析基礎,展示出CellMemory在離群細胞推斷場景中較好的表征能力。
從“序列搜索”到“亞群搜索”,參考映射正在重塑單細胞數據分析的技術范式。得益于較好的泛化能力與高效的計算效率,CellMemory有望成為覆蓋病理、時空及物種等多維度細胞參考圖譜建設與臨床精準診療的關鍵引擎。
近日,相關研究成果以CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer為題,發表在《基因組生物學》(Genome Biology)上。研究工作得到科學技術部、中國科學院等的支持。
論文鏈接?
CellMemory模型架構與應用場景
本文鏈接:研究開發出細胞身份鑒定新型AI引擎http://www.sq15.cn/show-12-1400-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。