近日,百度在海外官方賬號介紹了最新輕量級文字識別模型PP-OCRv5,該模型僅0.07B參數(shù),但在多項文字識別(OCR)場景測試中,識別精度堪與市面上部分7B參數(shù)大模型相媲美。據(jù)百度發(fā)布的信息顯示,飛槳團隊發(fā)布的技術博客已連續(xù)一周登頂“抱抱臉”(Hugging Face)博客熱度榜首,受到開發(fā)者社區(qū)的廣泛關注。
PP-OCRv5技術博客受關注。截圖自Hugging Face
該博客指出,在OCR場景中,通用視覺大模型(VLM)在精確文本定位和邊框精度上仍面臨挑戰(zhàn),同時容易帶來高計算開銷和“幻覺”輸出。相較于VLM,PP-OCRv5采用了模塊化雙階段檢測與識別方案,能夠實現(xiàn)輕量高效推理與更精準的文本邊界框輸出。
測評數(shù)據(jù)顯示,PP-OCRv5在中文識別(打印)、英文識別(打印)、英文識別(手寫) 等核心任務上表現(xiàn)出色;在中文識別(手寫) 、中文拼音識別等復雜場景中,能表現(xiàn)出強泛化能力。
據(jù)了解,作為百度飛槳團隊推出的全場景文字識別模型,PP-OCRv5是業(yè)界首個單模型支持5種文字類型的超輕量級(<100M)開源模型,且支持復雜手寫體識別,可廣泛應用于教育行業(yè)的試卷作業(yè)批改、醫(yī)療行業(yè)的病歷數(shù)字化、法律行業(yè)的合同筆錄數(shù)字化等多場景業(yè)務需求。
據(jù)百度介紹,2025年5月,飛槳團隊推出PaddleOCR 3.0,其特色方案能力包括文字識別、通用文檔解析以及智能文檔理解。自2020年開源以來,PaddleOCR累計下載量超900萬,被數(shù)千個開源項目直接或間接使用,是GitHub 社區(qū)中唯一一個星標(Star)數(shù)量超過50k的中國OCR項目。
本文鏈接:百度輕量級文字識別模型受開發(fā)者社區(qū)關注http://www.sq15.cn/show-11-26232-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。