百度輕量級文字識別模型受開發(fā)者社區(qū)關注

2025-09-19 17:58:55 來源：中國科學報

觀看：22

近日，百度在海外官方賬號介紹了最新輕量級文字識別模型PP-OCRv5，該模型僅0.07B參數(shù)，但在多項文字識別（OCR）場景測試中，識別精度堪與市面上部分7B參數(shù)大模型相媲美。據(jù)百度發(fā)布的信息顯示，飛槳團隊發(fā)布的技術博客已連續(xù)一周登頂“抱抱臉”（Hugging Face）博客熱度榜首，受到開發(fā)者社區(qū)的廣泛關注。

PP-OCRv5技術博客受關注。截圖自Hugging Face

該博客指出，在OCR場景中，通用視覺大模型（VLM）在精確文本定位和邊框精度上仍面臨挑戰(zhàn)，同時容易帶來高計算開銷和“幻覺”輸出。相較于VLM，PP-OCRv5采用了模塊化雙階段檢測與識別方案，能夠實現(xiàn)輕量高效推理與更精準的文本邊界框輸出。

測評數(shù)據(jù)顯示，PP-OCRv5在中文識別（打印）、英文識別（打印）、英文識別（手寫）等核心任務上表現(xiàn)出色；在中文識別（手寫）、中文拼音識別等復雜場景中，能表現(xiàn)出強泛化能力。

據(jù)了解，作為百度飛槳團隊推出的全場景文字識別模型，PP-OCRv5是業(yè)界首個單模型支持5種文字類型的超輕量級（<100M）開源模型，且支持復雜手寫體識別，可廣泛應用于教育行業(yè)的試卷作業(yè)批改、醫(yī)療行業(yè)的病歷數(shù)字化、法律行業(yè)的合同筆錄數(shù)字化等多場景業(yè)務需求。

據(jù)百度介紹，2025年5月，飛槳團隊推出PaddleOCR 3.0，其特色方案能力包括文字識別、通用文檔解析以及智能文檔理解。自2020年開源以來，PaddleOCR累計下載量超900萬，被數(shù)千個開源項目直接或間接使用，是GitHub 社區(qū)中唯一一個星標（Star）數(shù)量超過50k的中國OCR項目。

本文鏈接：百度輕量級文字識別模型受開發(fā)者社區(qū)關注http://www.sq15.cn/show-11-26232-0.html

聲明：本網(wǎng)站為非營利性網(wǎng)站，本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：連續(xù)提取法實現(xiàn)黃麻葉高活性多糖的制備

下一篇：藏式建筑保護傳承與創(chuàng)新發(fā)展學術交流會舉辦

中文字幕亚洲欧美一区二区三区_亚洲精品菠萝久久久久久久_日本成人免费视频_狠狠躁少妇一区二区三区_国产精品中文字幕久久久_国产乱子伦农村叉叉叉_麻豆tv免费在线观看_av在线这里只有精品_色吧亚洲视频_嫩草影院一二三

百度輕量級文字識別模型受開發(fā)者社區(qū)關注

熱門資訊

推薦資訊

科學最熱文章