10月16日,百度發布并開源自研多模態文檔解析模型PaddleOCR-VL。其核心模型參數僅0.9B,輕量高效,能夠在極低計算開銷下,精準識別文本、手寫漢字、表格、公式、圖表等復雜元素,支持109 種語言,覆蓋中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等多語場景,廣泛適用于政企文檔管理、知識檢索、檔案數字化、科研信息抽取等文檔智能任務。
作為文心4.5衍生模型,PaddleOCR-VL-0.9B通過融合NaViT動態分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型,在精度與效率上取得了新的突破。
精度方面,PaddleOCR-VL在文本編輯距離、公式識別、表格識別、閱讀順序預測誤差等方面有著出色表現,其在復雜文檔、手寫稿、歷史檔案識別等高難度場景中亦表現穩定。
推理方面,在單張A100 GPU上,PaddleOCR-VL每秒可處理1881個Tokens,推理速度較現有模型有翻倍性能的提升。
據介紹,區別于傳統OCR僅能逐行識別文字,PaddleOCR-VL能夠讀懂、理解復雜版面結構,精準提取財報表格、數學公式、課堂手寫筆記等多元信息,并在識別后自動還原符合人類閱讀習慣的閱讀順序,精準區分標題、正文、圖片與圖注,確保信息無遺漏、邏輯不混亂。
另據了解,在架構上,PaddleOCR-VL 創新性地采用兩階段架構:第一階段由PP-DocLayoutV2 模型負責版面檢測與閱讀順序預測;第二階段由PaddleOCR-VL-0.9B識別并結構化輸出文字、表格、公式、圖表等元素。相較端到端方案,能夠在復雜版面中更穩定、更高效,有效避免多模態模型常見的幻覺與錯位問題。
本文鏈接:支持109種語言,百度多模態文檔解析模型開源http://www.sq15.cn/show-11-27168-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
上一篇: 蔣榮猛:肝炎防治應打通基層“最后一公里”
下一篇: “天府智農AI大模型”在四川發布