支持109種語言，百度多模態文檔解析模型開源

2025-10-18 12:45:45 來源：中國科學報

觀看：20

10月16日，百度發布并開源自研多模態文檔解析模型PaddleOCR-VL。其核心模型參數僅0.9B，輕量高效，能夠在極低計算開銷下，精準識別文本、手寫漢字、表格、公式、圖表等復雜元素，支持109 種語言，覆蓋中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等多語場景，廣泛適用于政企文檔管理、知識檢索、檔案數字化、科研信息抽取等文檔智能任務。

作為文心4.5衍生模型，PaddleOCR-VL-0.9B通過融合NaViT動態分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型，在精度與效率上取得了新的突破。

精度方面，PaddleOCR-VL在文本編輯距離、公式識別、表格識別、閱讀順序預測誤差等方面有著出色表現，其在復雜文檔、手寫稿、歷史檔案識別等高難度場景中亦表現穩定。

推理方面，在單張A100 GPU上，PaddleOCR-VL每秒可處理1881個Tokens，推理速度較現有模型有翻倍性能的提升。

據介紹，區別于傳統OCR僅能逐行識別文字，PaddleOCR-VL能夠讀懂、理解復雜版面結構，精準提取財報表格、數學公式、課堂手寫筆記等多元信息，并在識別后自動還原符合人類閱讀習慣的閱讀順序，精準區分標題、正文、圖片與圖注，確保信息無遺漏、邏輯不混亂。

另據了解，在架構上，PaddleOCR-VL 創新性地采用兩階段架構：第一階段由PP-DocLayoutV2 模型負責版面檢測與閱讀順序預測；第二階段由PaddleOCR-VL-0.9B識別并結構化輸出文字、表格、公式、圖表等元素。相較端到端方案，能夠在復雜版面中更穩定、更高效，有效避免多模態模型常見的幻覺與錯位問題。

本文鏈接：支持109種語言，百度多模態文檔解析模型開源http://www.sq15.cn/show-11-27168-0.html

聲明：本網站為非營利性網站，本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：蔣榮猛：肝炎防治應打通基層“最后一公里”

下一篇： “天府智農AI大模型”在四川發布

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

支持109種語言，百度多模態文檔解析模型開源

熱門資訊

推薦資訊

科學最熱文章

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

支持109種語言，百度多模態文檔解析模型開源

熱門資訊

推薦資訊

科學最熱文章

支持109種語言，百度多模態文檔解析模型開源