0
| 本文作者: 陳淑瑜 | 2026-05-27 18:16 | 專題:CVPR 計(jì)算機(jī)視覺與模式識別會議 |
原文鏈接:https://mp.weixin.qq.com/s/AbtZYKAhP5KEaChBnLIV7A
近日,由InTimeLab、騰訊、南京理工大學(xué)合作完成的研究成果《Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training》被 CVPR 2026 主會接收。論文聚焦"如何讓端到端文檔解析模型在真實(shí)隨拍場景下保持魯棒性"這一核心問題,提出了端到端文檔解析模型 DocHumming,通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì),以僅 1B 參數(shù)的規(guī)模在標(biāo)準(zhǔn)數(shù)字文檔和真實(shí)隨拍文檔上同時(shí)建立了全新的 SOTA。同時(shí),論文構(gòu)建并開源了首個(gè)真實(shí)場景文檔解析基準(zhǔn) Wild-OmniDocBench。
文檔解析將非結(jié)構(gòu)化文檔圖像轉(zhuǎn)化為結(jié)構(gòu)化輸出,已隨著多模態(tài)大語言模型(MLLM)的進(jìn)步取得了顯著發(fā)展。然而,當(dāng)面對真實(shí)世界中用手機(jī)隨手拍攝的文檔時(shí),現(xiàn)有方法的性能出現(xiàn)了顯著退化。

掃描/數(shù)字文檔 vs 真實(shí)隨拍文檔:左側(cè)的標(biāo)準(zhǔn)文檔可被模塊化管線和端到端方法正確解析,而右側(cè)真實(shí)隨拍文檔引入了透視變形、光照不均、陰影遮擋等退化,導(dǎo)致模塊化管線出現(xiàn)布局分析錯(cuò)誤、元素缺失,端到端方法產(chǎn)生重復(fù)內(nèi)容。
現(xiàn)有方法面臨的核心挑戰(zhàn):
模塊化管線(Modular Pipeline)。
端到端方法(End-to-End)。
*DocHumming 正是通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì)來系統(tǒng)性解決這兩大瓶頸。*
為解決全頁級端到端訓(xùn)練數(shù)據(jù)稀缺的瓶頸,論文提出了一套系統(tǒng)化、可擴(kuò)展的合成數(shù)據(jù)管線。

Realistic Scene Synthesis 概覽:左側(cè)為原子元素庫(9M 元素)和布局模板庫(576K 模板);右側(cè)為合成流水線——將采樣元素組合到模板中,施加空間/結(jié)構(gòu)約束生成頁級標(biāo)注,再通過拍攝感知增強(qiáng)模擬真實(shí)世界圖像。
該管線包含三個(gè)關(guān)鍵模塊:
元素倉庫(Element Repository)。
布局模板庫(Layout Library)。
拍攝感知增強(qiáng)(Data Augmentation)。
最終產(chǎn)出 DocMix-3M——約 300 萬高質(zhì)量合成文檔,其中約 20% 經(jīng)增強(qiáng)模擬隨拍條件。
為解決端到端模型在長序列全頁解析中的結(jié)構(gòu)崩潰問題,論文設(shè)計(jì)了兩階段漸進(jìn)式訓(xùn)練策略:
Stage 1:Short-to-long Training(短到長漸進(jìn)訓(xùn)練)。
Stage 2:Parsing Token Preference(結(jié)構(gòu) token 偏好優(yōu)化)。
現(xiàn)有基準(zhǔn)(如 OmniDocBench)僅評估掃描/數(shù)字文檔,缺少真實(shí)隨拍場景的退化挑戰(zhàn)。論文構(gòu)建了 Wild-OmniDocBench——源自真實(shí)世界拍攝的文檔解析基準(zhǔn)。

Wild-OmniDocBench 的采集流程:對 OmniDocBench 中的原始文檔進(jìn)行真實(shí)場景下的手動拍攝(多角度、多設(shè)備、多環(huán)境),引入自然退化的同時(shí)保留精確的 Ground Truth 標(biāo)注。
標(biāo)準(zhǔn)文檔評估(OmniDocBench)。 DocHumming 以僅 1B 參數(shù)在所有指標(biāo)上全面超越現(xiàn)有方法:

Table 1:各類 OCR 和 VLM 系統(tǒng)在文檔理解基準(zhǔn)上的對比。DocHumming(1B)在 Overall、Text、Formula、Table、Reading Order 五個(gè)維度上均取得最優(yōu)表現(xiàn),超越了 GPT-4o、Gemini-2.5 Pro、InternVL3 等通用大模型以及 PaddleOCR-VL、MinerU2.5 等專用方案。
多語言評估(XFUND)。 DocHumming 在德語、意大利語、日語、西班牙語、葡萄牙語、法語六種語言上均取得最優(yōu)表現(xiàn)。

Table 2:XFUND 多語言性能對比。受益于 DocMix-3M 中的多語言監(jiān)督,DocHumming 在所有六種語言上均超越 Gemini-2.5 Pro、GPT-4o 等方法。
真實(shí)隨拍評估(Wild-OmniDocBench)。 關(guān)鍵發(fā)現(xiàn):所有模型從標(biāo)準(zhǔn)文檔到真實(shí)隨拍文檔都出現(xiàn)了性能退化,但 DocHumming 退化幅度最小(僅 -6.72),遠(yuǎn)優(yōu)于模塊化管線的 -19.76 和其他端到端方法的 -10.40。

Table 3:Wild-OmniDocBench 上的性能對比。DocHumming 在真實(shí)隨拍場景下保持最高精度(Overall 87.03),退化幅度遠(yuǎn)小于其他方法。
消融實(shí)驗(yàn)。 驗(yàn)證了核心組件的有效性:

Table 4:訓(xùn)練策略消融——Realistic Scene Synthesis(RSS)和 Document-Aware Training Recipe(DATR)的每個(gè)組件都對最終性能有正向貢獻(xiàn)。

Table 5:數(shù)據(jù)規(guī)模消融——DocMix-3M 是最優(yōu)配比,進(jìn)一步增加到 4M 后在 Wild 場景出現(xiàn)輕微過擬合。
DocHumming 的核心洞察是:要實(shí)現(xiàn)魯棒的真實(shí)場景文檔解析,僅靠模型規(guī)模的擴(kuò)大遠(yuǎn)遠(yuǎn)不夠——需要同時(shí)解決"缺乏大規(guī)模全頁級訓(xùn)練數(shù)據(jù)"和"缺乏結(jié)構(gòu)感知訓(xùn)練策略"兩大根本瓶頸。 通過數(shù)據(jù)合成與訓(xùn)練策略的協(xié)同設(shè)計(jì),僅 1B 參數(shù)的端到端模型便能在標(biāo)準(zhǔn)文檔和真實(shí)隨拍文檔上同時(shí)超越百倍參數(shù)的通用大模型。
Wild-OmniDocBench已開源:
https://github.com/VirtualLUOUCAS/Wild_OmniDocBench
題目:
作者:
單位:
arXiv:
本專題其他文章