• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    導(dǎo)語:論文聚焦"如何讓端到端文檔解析模型在真實(shí)隨拍場景下保持魯棒性"這一核心問題,提出了端到端文檔解析模型 DocHumming

    來源:公眾號“InTimeLab”

    原文鏈接:https://mp.weixin.qq.com/s/AbtZYKAhP5KEaChBnLIV7A

    近日,由InTimeLab、騰訊、南京理工大學(xué)合作完成的研究成果《Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training》被 CVPR 2026 主會接收。論文聚焦"如何讓端到端文檔解析模型在真實(shí)隨拍場景下保持魯棒性"這一核心問題,提出了端到端文檔解析模型 DocHumming,通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì),以僅 1B 參數(shù)的規(guī)模在標(biāo)準(zhǔn)數(shù)字文檔和真實(shí)隨拍文檔上同時(shí)建立了全新的 SOTA。同時(shí),論文構(gòu)建并開源了首個(gè)真實(shí)場景文檔解析基準(zhǔn) Wild-OmniDocBench


    文檔解析將非結(jié)構(gòu)化文檔圖像轉(zhuǎn)化為結(jié)構(gòu)化輸出,已隨著多模態(tài)大語言模型(MLLM)的進(jìn)步取得了顯著發(fā)展。然而,當(dāng)面對真實(shí)世界中用手機(jī)隨手拍攝的文檔時(shí),現(xiàn)有方法的性能出現(xiàn)了顯著退化。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    掃描/數(shù)字文檔 vs 真實(shí)隨拍文檔:左側(cè)的標(biāo)準(zhǔn)文檔可被模塊化管線和端到端方法正確解析,而右側(cè)真實(shí)隨拍文檔引入了透視變形、光照不均、陰影遮擋等退化,導(dǎo)致模塊化管線出現(xiàn)布局分析錯(cuò)誤、元素缺失,端到端方法產(chǎn)生重復(fù)內(nèi)容。

    現(xiàn)有方法面臨的核心挑戰(zhàn):

    • 模塊化管線(Modular Pipeline)。

       依賴精確的版面分析作為前置步驟,在隨拍場景下布局檢測失敗將導(dǎo)致后續(xù)所有環(huán)節(jié)級聯(lián)崩潰。
    • 端到端方法(End-to-End)。

       雖避免了版面分析依賴,但在全頁級解析時(shí)普遍出現(xiàn)重復(fù)生成、幻覺內(nèi)容和結(jié)構(gòu)不一致等問題——根本原因在于缺乏大規(guī)模、高質(zhì)量的全頁級端到端解析訓(xùn)練數(shù)據(jù)以及缺少結(jié)構(gòu)感知的訓(xùn)練策略

      *DocHumming 正是通過數(shù)據(jù)-訓(xùn)練協(xié)同設(shè)計(jì)來系統(tǒng)性解決這兩大瓶頸。*


    為解決全頁級端到端訓(xùn)練數(shù)據(jù)稀缺的瓶頸,論文提出了一套系統(tǒng)化、可擴(kuò)展的合成數(shù)據(jù)管線。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Realistic Scene Synthesis 概覽:左側(cè)為原子元素庫(9M 元素)和布局模板庫(576K 模板);右側(cè)為合成流水線——將采樣元素組合到模板中,施加空間/結(jié)構(gòu)約束生成頁級標(biāo)注,再通過拍攝感知增強(qiáng)模擬真實(shí)世界圖像。

    該管線包含三個(gè)關(guān)鍵模塊:

    • 元素倉庫(Element Repository)。

       整合表格識別、公式解析、段落理解等多來源數(shù)據(jù)集,經(jīng)格式統(tǒng)一后構(gòu)成約 900 萬個(gè)標(biāo)準(zhǔn)化原子元素。利用 Qwen2.5-72B 進(jìn)行標(biāo)注改寫和增強(qiáng)(如公式嵌入表格、多語言段落生成),進(jìn)一步提升多樣性。
    • 布局模板庫(Layout Library)。

       收集公開布局?jǐn)?shù)據(jù)集并從網(wǎng)絡(luò)挖掘真實(shí)版面,經(jīng)布局檢測器篩選后構(gòu)建超過 57.6 萬種帶閱讀序標(biāo)注的布局模式。
    • 拍攝感知增強(qiáng)(Data Augmentation)。

       模擬透視變形、彎曲褶皺、光照變化、相機(jī)旋轉(zhuǎn)和真實(shí)背景疊加等自然退化,縮小合成數(shù)據(jù)與真實(shí)隨拍文檔的域差距。

    最終產(chǎn)出 DocMix-3M——約 300 萬高質(zhì)量合成文檔,其中約 20% 經(jīng)增強(qiáng)模擬隨拍條件。


    為解決端到端模型在長序列全頁解析中的結(jié)構(gòu)崩潰問題,論文設(shè)計(jì)了兩階段漸進(jìn)式訓(xùn)練策略:

    • Stage 1:Short-to-long Training(短到長漸進(jìn)訓(xùn)練)。

       先在元素級短序列(表格、公式、段落)上訓(xùn)練,建立穩(wěn)定的元素解析能力;隨后逐步過渡到全頁級長序列訓(xùn)練。
    • Stage 2:Parsing Token Preference(結(jié)構(gòu) token 偏好優(yōu)化)。

       對結(jié)構(gòu)標(biāo)記(如 '<tr>'、'<td>')施加更高的損失權(quán)重,使模型在訓(xùn)練時(shí)更加關(guān)注結(jié)構(gòu)正確性,有效抑制重復(fù)生成和結(jié)構(gòu)混亂。


    現(xiàn)有基準(zhǔn)(如 OmniDocBench)僅評估掃描/數(shù)字文檔,缺少真實(shí)隨拍場景的退化挑戰(zhàn)。論文構(gòu)建了 Wild-OmniDocBench——源自真實(shí)世界拍攝的文檔解析基準(zhǔn)。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Wild-OmniDocBench 的采集流程:對 OmniDocBench 中的原始文檔進(jìn)行真實(shí)場景下的手動拍攝(多角度、多設(shè)備、多環(huán)境),引入自然退化的同時(shí)保留精確的 Ground Truth 標(biāo)注。


    標(biāo)準(zhǔn)文檔評估(OmniDocBench)。 DocHumming 以僅 1B 參數(shù)在所有指標(biāo)上全面超越現(xiàn)有方法:

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Table 1:各類 OCR 和 VLM 系統(tǒng)在文檔理解基準(zhǔn)上的對比。DocHumming(1B)在 Overall、Text、Formula、Table、Reading Order 五個(gè)維度上均取得最優(yōu)表現(xiàn),超越了 GPT-4o、Gemini-2.5 Pro、InternVL3 等通用大模型以及 PaddleOCR-VL、MinerU2.5 等專用方案。

    多語言評估(XFUND)。 DocHumming 在德語、意大利語、日語、西班牙語、葡萄牙語、法語六種語言上均取得最優(yōu)表現(xiàn)。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Table 2:XFUND 多語言性能對比。受益于 DocMix-3M 中的多語言監(jiān)督,DocHumming 在所有六種語言上均超越 Gemini-2.5 Pro、GPT-4o 等方法。

    真實(shí)隨拍評估(Wild-OmniDocBench)。 關(guān)鍵發(fā)現(xiàn):所有模型從標(biāo)準(zhǔn)文檔到真實(shí)隨拍文檔都出現(xiàn)了性能退化,但 DocHumming 退化幅度最小(僅 -6.72),遠(yuǎn)優(yōu)于模塊化管線的 -19.76 和其他端到端方法的 -10.40。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Table 3:Wild-OmniDocBench 上的性能對比。DocHumming 在真實(shí)隨拍場景下保持最高精度(Overall 87.03),退化幅度遠(yuǎn)小于其他方法。

    消融實(shí)驗(yàn)。 驗(yàn)證了核心組件的有效性:

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Table 4:訓(xùn)練策略消融——Realistic Scene Synthesis(RSS)和 Document-Aware Training Recipe(DATR)的每個(gè)組件都對最終性能有正向貢獻(xiàn)。

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    Table 5:數(shù)據(jù)規(guī)模消融——DocMix-3M 是最優(yōu)配比,進(jìn)一步增加到 4M 后在 Wild 場景出現(xiàn)輕微過擬合。


    DocHumming 的核心洞察是:要實(shí)現(xiàn)魯棒的真實(shí)場景文檔解析,僅靠模型規(guī)模的擴(kuò)大遠(yuǎn)遠(yuǎn)不夠——需要同時(shí)解決"缺乏大規(guī)模全頁級訓(xùn)練數(shù)據(jù)"和"缺乏結(jié)構(gòu)感知訓(xùn)練策略"兩大根本瓶頸。 通過數(shù)據(jù)合成與訓(xùn)練策略的協(xié)同設(shè)計(jì),僅 1B 參數(shù)的端到端模型便能在標(biāo)準(zhǔn)文檔和真實(shí)隨拍文檔上同時(shí)超越百倍參數(shù)的通用大模型。


    Wild-OmniDocBench已開源:

     https://github.com/VirtualLUOUCAS/Wild_OmniDocBench


    • 題目:

       Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training
    • 作者:

       Gengluo Li, Pengyuan Lyu, Chengquan Zhang, Huawen Shen, Liang Wu, Xingyu Wan, Gangyan Zeng, Han Hu, Can Ma, Yu Zhou
    • 單位:

       InTimeLab · 騰訊  · 南京理工大學(xué)
    • arXiv:

       https://arxiv.org/abs/2603.23885

    CVPR 2026 | DocHumming:面向真實(shí)場景的端到端文檔解析新范式

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产精品久久久久久亚洲色| 欧美506070老妇乱子伦| 国产成人av免费观看| 色噜噜狠狠色综合日日| 波多野结衣无码视频在线观看| 亚洲女人天堂| 韩国精品一区二区| 庆云县| 国产亚洲天堂另类综合| a4yy私人毛片| 天堂岛国精品在线观看一区二区| 黑料不打烊tttzzz官网网址| 亚洲精品国产一卡二卡| 亚洲欧美一区二区成人片| 大香蕉av一区二区三区| 三级在线视频观看| 91福利一区福利二区| 欧美人与动牲猛交A欧美精品| 国产成人精品视频一区二区电影| 2019年国产精品自拍不卡| 午夜三级中文不卡电影| 免费看黄色亚洲一区久久| 国产v亚洲v天堂a无| 亚洲第一色区| 亚洲伊人色综合网站| 亚洲精品综合网二三区| 成人网站18禁| 黑人巨茎大战欧美白妇免费| 西西人体大胆高清窝窝www| 久久人与动人物a级毛片| 偷拍99| 人妻综合第一页| 日本在线观看高清不卡免v| 任你躁国产自任一区二区三区| 99在线观看| 精品人妻一区二区三区奶水| 亚洲精品国产精品乱码不卞| 中文无码vr最新无码av专区| 成人午夜在线观看刺激| 亚洲综合在线另类色区奇米| 国产精品一区理论片|