0
| 本文作者: Nemo | 2026-06-15 16:51 |
近日,百度文心正式發布新一代OCR模型PP-OCRv6,一次性推出Tiny、Small、Medium三檔模型,支持 50 多種語言,覆蓋瀏覽器端、嵌入式設備到服務器等主流場景。公開結果顯示,PP-OCRv6再次刷新OCR領域評測紀錄,綜合性能位居全球第一。
其中,PP-OCRv6 Tiny的尺寸僅1.5MB,可直接部署于本地瀏覽器環境,單圖預測最快僅需 97 毫秒。用戶數據無需上傳云端即可完成OCR處理,在保障隱私安全的同時,大幅降低部署門檻。有開發者評價,PP-OCRv6可能是全球唯一可在瀏覽器環境運行的高精度OCR模型,為 Agent 裝上一雙眼睛,能夠在智能辦公、教育、工業等場景提供更加輕量、高效的視覺感知能力。?
在性能方面,PP-OCRv6在保持輕量化優勢的同時進一步提升識別精度和推理速度,綜合性能顯著增強。PP-OCRv6在文本檢測和文本識別任務中分別取得86.2和83.2的成績,雙雙刷新此前由PP-OCRv5保持的OCR領域最佳水平,整體表現領先于Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro等國內外主流多模態大模型,在OCR專業任務上展現出更強競爭力。
?

?作為文心大模型多模態能力的重要組成部分,PP-OCR系列近年來持續推進文本檢測與識別技術升級,先后推出PP-OCRv1至PP-OCRv6等多個版本。目前,PP-OCR系列所在的PaddleOCR項目已支持超110種語言識別,服務覆蓋全球170多個國家和地區。
憑借輕量化、高精度等特點,PP-OCR系列已被廣泛集成至UmiOCR、MinerU、TurboOCR等業界OCR工具鏈中,并應用于文檔解析、數據處理、知識庫構建等場景,成為開發者和企業常用的開源OCR解決方案之一;同時,PP-OCR系列也成為各大模型團隊開展數據預處理、文檔解析和知識提取的重要工具,為模型訓練與應用落地提供支持。在GitHub上,PaddleOCR的Star數量已突破8.22萬,超過谷歌旗下開源OCR標桿產品Tesseract OCR,成為全球最受關注的開源OCR項目之一。
目前,PP-OCRv6 已上線 PaddleOCR 官網,用戶可通過網頁或API方式快速使用,代碼和模型權重也已開源至Github 和 HuggingFace,服務廣大用戶下載和使用。
PaddleOCR官網:paddleocr.com
Github:github.com/PaddlePaddle/PaddleOCR
HuggingFace:https://huggingface.co/collections/PaddlePaddle/pp-ocrv6