隨著人工智能(AI)深入各行各業,多模態大模型正在成為AI發展的重要方向之一。近日,第八屆中國模式識別與計算機視覺學術會議(PRCV 2025)在上海召開,“多模態文本智能大模型前沿技術與應用”論壇同期舉辦。來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅書及合合信息技術團隊的專家與學者,深入探討多模態文本智能領域的最新技術突破與場景應用案例。
如同人類需要同時調用視覺、聽覺、觸覺等多感官來全面理解外部世界,大模型也需要綜合處理文字、圖片、表格等文本信息后作出判斷。“實戰”應用標準對大模型的多模態內容深度整合能力提出了新的要求,語義割裂、場景理解局限、決策失誤等常見的模型缺陷制約了其在行業中的應用發展。
論壇期間,合合信息推出“多模態文本智能技術”方案,該方案可通過文本相關空間位置理解深層語義邏輯,實現對多模態信息的“立體化綜合化理解”,賦予模型真正的文本“閱讀理解”能力。
多模態指利用多種不同形式或感知渠道的信息進行表達、交流和理解的方式,數據模態包括文本、圖像、音頻、視頻等。2025年Gartner人工智能技術成熟度曲線顯示,多模態AI將在未來五年成為各行業提升所有應用和軟件產品功能的核心技術。
為助力大模型實現跨越模態的推理能力,哈爾濱工業大學計算學部長聘教授車萬翔重點分享了“多模態思維鏈”技術,該技術將推理邏輯分解為一系列可解釋的跨模態推理步驟,最終生成更為精準和可靠的結論。除了幫助大模型理清邏輯,解決“胡編亂造”問題也是提升AI能力的重要方向。
真實的應用場景是技術不斷迭代更新的動力。論壇現場,合合信息圖像算法研發總監郭豐俊重點分享了文本智能技術的創新應用,幫助用戶解決復雜場景下的文檔圖像問題。小紅書hi lab團隊算法工程師燕青結合行業實踐,分享了一款基于單視覺語言模型的多語言文檔布局解析工具“dots.ocr”。
除了商業應用,在文保領域,多模態大模型也發揮出巨大價值。華中科技大學教授劉禹良介紹了首個覆蓋甲骨文專家破譯全流程的輔助考釋框架AlphaOracle,通過人類工作流啟發的音形義理破譯流程,實現字形分析、拓片用法總結和傳世文獻做證的思路,成功在“勞”等字的輔助破譯上取得突破。
從文字、圖像到視頻,無論模態如何演變,其所承載的文本信息始終是AI理解世界的基座。實現具備自主感知、認知與決策能力的通用人工智能,首要前提是讓機器充分理解作為知識載體的“文本”。基于此,“多模態文本智能技術”方案將技術處理對象從傳統的文檔(如PDF、Word等格式文件)延伸至多種承載文本信息的媒介,無論是論文、財報還是視頻、自然場景,都能成為系統的理解對象。
在傳統的文檔處理技術中,“如何準確地提取信息”是重點關注方向。然而在真實業務場景中,信息往往以多模態組合形態存在,如財報的數據需對照表格驗證,國家標準文件中的插圖依賴圖例說明。為解決多模態信息的協同解讀需求,方案建立了從復雜場景文本感知到深層語義理解的技術閉環,讓AI不僅能夠“看清”文本,更能夠理解其布局關聯,解決不同模態間的信息割裂問題。
目前,“多模態文本智能技術”方案已將文本智能認知程度從語義理解拓展到類人推理及自主機器決策,形成了從感知到認知再到決策的技術實現路徑。相較于傳統的文檔解析、識別系統,該方案讓系統具備了更接近人類判斷邏輯的自主決策能力,在完成對多模態信息的感知和理解后,能夠根據用戶意圖,做出正確決策。
本文鏈接:多模態文本智能技術助力AI實現智能推理http://www.sq15.cn/show-11-27348-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 2025企業可持續品牌圓桌會在西安舉行
下一篇: 2025年“流動科學課”貴州站啟動