CVPR 2026 | DocHumming：面向真實(shí)場景的端到端文檔解析新范式

本文作者：陳淑瑜

2026-05-27 18:16

導(dǎo)語：論文聚焦"如何讓端到端文檔解析模型在真實(shí)隨拍場景下保持魯棒性"這一核心問題，提出了端到端文檔解析模型 DocHumming

來源：公眾號“InTimeLab”

原文鏈接：https://mp.weixin.qq.com/s/AbtZYKAhP5KEaChBnLIV7A

近日，由InTimeLab、騰訊、南京理工大學(xué)合作完成的研究成果《Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training》被 CVPR 2026 主會接收。論文聚焦"如何讓端到端文檔解析模型在真實(shí)隨拍場景下保持魯棒性"這一核心問題，提出了端到端文檔解析模型 DocHumming，通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì)，以僅 1B 參數(shù)的規(guī)模在標(biāo)準(zhǔn)數(shù)字文檔和真實(shí)隨拍文檔上同時(shí)建立了全新的 SOTA。同時(shí)，論文構(gòu)建并開源了首個(gè)真實(shí)場景文檔解析基準(zhǔn) Wild-OmniDocBench。

文檔解析將非結(jié)構(gòu)化文檔圖像轉(zhuǎn)化為結(jié)構(gòu)化輸出，已隨著多模態(tài)大語言模型（MLLM）的進(jìn)步取得了顯著發(fā)展。然而，當(dāng)面對真實(shí)世界中用手機(jī)隨手拍攝的文檔時(shí)，現(xiàn)有方法的性能出現(xiàn)了顯著退化。

CVPR 2026 | DocHumming：面向真實(shí)場景的端到端文檔解析新范式

掃描/數(shù)字文檔 vs 真實(shí)隨拍文檔：左側(cè)的標(biāo)準(zhǔn)文檔可被模塊化管線和端到端方法正確解析，而右側(cè)真實(shí)隨拍文檔引入了透視變形、光照不均、陰影遮擋等退化，導(dǎo)致模塊化管線出現(xiàn)布局分析錯(cuò)誤、元素缺失，端到端方法產(chǎn)生重復(fù)內(nèi)容。

現(xiàn)有方法面臨的核心挑戰(zhàn)：

模塊化管線（Modular Pipeline）。
依賴精確的版面分析作為前置步驟，在隨拍場景下布局檢測失敗將導(dǎo)致后續(xù)所有環(huán)節(jié)級聯(lián)崩潰。
端到端方法（End-to-End）。
雖避免了版面分析依賴，但在全頁級解析時(shí)普遍出現(xiàn)重復(fù)生成、幻覺內(nèi)容和結(jié)構(gòu)不一致等問題——根本原因在于缺乏大規(guī)模、高質(zhì)量的全頁級端到端解析訓(xùn)練數(shù)據(jù)以及缺少結(jié)構(gòu)感知的訓(xùn)練策略。
*DocHumming 正是通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì)來系統(tǒng)性解決這兩大瓶頸。*

為解決全頁級端到端訓(xùn)練數(shù)據(jù)稀缺的瓶頸，論文提出了一套系統(tǒng)化、可擴(kuò)展的合成數(shù)據(jù)管線。

Realistic Scene Synthesis 概覽：左側(cè)為原子元素庫（9M 元素）和布局模板庫（576K 模板）；右側(cè)為合成流水線——將采樣元素組合到模板中，施加空間/結(jié)構(gòu)約束生成頁級標(biāo)注，再通過拍攝感知增強(qiáng)模擬真實(shí)世界圖像。

該管線包含三個(gè)關(guān)鍵模塊：

元素倉庫（Element Repository）。
整合表格識別、公式解析、段落理解等多來源數(shù)據(jù)集，經(jīng)格式統(tǒng)一后構(gòu)成約 900 萬個(gè)標(biāo)準(zhǔn)化原子元素。利用 Qwen2.5-72B 進(jìn)行標(biāo)注改寫和增強(qiáng)（如公式嵌入表格、多語言段落生成），進(jìn)一步提升多樣性。
布局模板庫（Layout Library）。
收集公開布局?jǐn)?shù)據(jù)集并從網(wǎng)絡(luò)挖掘真實(shí)版面，經(jīng)布局檢測器篩選后構(gòu)建超過 57.6 萬種帶閱讀序標(biāo)注的布局模式。
拍攝感知增強(qiáng)（Data Augmentation）。
模擬透視變形、彎曲褶皺、光照變化、相機(jī)旋轉(zhuǎn)和真實(shí)背景疊加等自然退化，縮小合成數(shù)據(jù)與真實(shí)隨拍文檔的域差距。

最終產(chǎn)出 DocMix-3M——約 300 萬高質(zhì)量合成文檔，其中約 20% 經(jīng)增強(qiáng)模擬隨拍條件。

為解決端到端模型在長序列全頁解析中的結(jié)構(gòu)崩潰問題，論文設(shè)計(jì)了兩階段漸進(jìn)式訓(xùn)練策略：

Stage 1：Short-to-long Training（短到長漸進(jìn)訓(xùn)練）。
先在元素級短序列（表格、公式、段落）上訓(xùn)練，建立穩(wěn)定的元素解析能力；隨后逐步過渡到全頁級長序列訓(xùn)練。
Stage 2：Parsing Token Preference（結(jié)構(gòu) token 偏好優(yōu)化）。
對結(jié)構(gòu)標(biāo)記（如 '<tr>'、'<td>'）施加更高的損失權(quán)重，使模型在訓(xùn)練時(shí)更加關(guān)注結(jié)構(gòu)正確性，有效抑制重復(fù)生成和結(jié)構(gòu)混亂。

現(xiàn)有基準(zhǔn)（如 OmniDocBench）僅評估掃描/數(shù)字文檔，缺少真實(shí)隨拍場景的退化挑戰(zhàn)。論文構(gòu)建了 Wild-OmniDocBench——源自真實(shí)世界拍攝的文檔解析基準(zhǔn)。

Wild-OmniDocBench 的采集流程：對 OmniDocBench 中的原始文檔進(jìn)行真實(shí)場景下的手動拍攝（多角度、多設(shè)備、多環(huán)境），引入自然退化的同時(shí)保留精確的 Ground Truth 標(biāo)注。

標(biāo)準(zhǔn)文檔評估（OmniDocBench）。 DocHumming 以僅 1B 參數(shù)在所有指標(biāo)上全面超越現(xiàn)有方法：

Table 1：各類 OCR 和 VLM 系統(tǒng)在文檔理解基準(zhǔn)上的對比。DocHumming（1B）在 Overall、Text、Formula、Table、Reading Order 五個(gè)維度上均取得最優(yōu)表現(xiàn)，超越了 GPT-4o、Gemini-2.5 Pro、InternVL3 等通用大模型以及 PaddleOCR-VL、MinerU2.5 等專用方案。

多語言評估（XFUND）。 DocHumming 在德語、意大利語、日語、西班牙語、葡萄牙語、法語六種語言上均取得最優(yōu)表現(xiàn)。

Table 2：XFUND 多語言性能對比。受益于 DocMix-3M 中的多語言監(jiān)督，DocHumming 在所有六種語言上均超越 Gemini-2.5 Pro、GPT-4o 等方法。

真實(shí)隨拍評估（Wild-OmniDocBench）。 關(guān)鍵發(fā)現(xiàn)：所有模型從標(biāo)準(zhǔn)文檔到真實(shí)隨拍文檔都出現(xiàn)了性能退化，但 DocHumming 退化幅度最小（僅 -6.72），遠(yuǎn)優(yōu)于模塊化管線的 -19.76 和其他端到端方法的 -10.40。

Table 3：Wild-OmniDocBench 上的性能對比。DocHumming 在真實(shí)隨拍場景下保持最高精度（Overall 87.03），退化幅度遠(yuǎn)小于其他方法。

消融實(shí)驗(yàn)。 驗(yàn)證了核心組件的有效性：

Table 4：訓(xùn)練策略消融——Realistic Scene Synthesis（RSS）和 Document-Aware Training Recipe（DATR）的每個(gè)組件都對最終性能有正向貢獻(xiàn)。

Table 5：數(shù)據(jù)規(guī)模消融——DocMix-3M 是最優(yōu)配比，進(jìn)一步增加到 4M 后在 Wild 場景出現(xiàn)輕微過擬合。

DocHumming 的核心洞察是：要實(shí)現(xiàn)魯棒的真實(shí)場景文檔解析，僅靠模型規(guī)模的擴(kuò)大遠(yuǎn)遠(yuǎn)不夠——需要同時(shí)解決"缺乏大規(guī)模全頁級訓(xùn)練數(shù)據(jù)"和"缺乏結(jié)構(gòu)感知訓(xùn)練策略"兩大根本瓶頸。通過數(shù)據(jù)合成與訓(xùn)練策略的協(xié)同設(shè)計(jì)，僅 1B 參數(shù)的端到端模型便能在標(biāo)準(zhǔn)文檔和真實(shí)隨拍文檔上同時(shí)超越百倍參數(shù)的通用大模型。

Wild-OmniDocBench已開源：

https://github.com/VirtualLUOUCAS/Wild_OmniDocBench

題目：
Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
作者：
Gengluo Li, Pengyuan Lyu, Chengquan Zhang, Huawen Shen, Liang Wu, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou
單位：
InTimeLab · 騰訊 · 南京理工大學(xué)
arXiv：
https://arxiv.org/abs/2603.23885

0人收藏

相關(guān)文章

專題

CVPR 計(jì)算機(jī)視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章