• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    本文作者: 陳淑瑜   2026-06-02 18:11
    導(dǎo)語:我們提出了 CoVCR,一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下,能夠生成并利用合理的上下文線索

    來源:微信公眾號(hào)“PRML Research Group”

    原文鏈接:https://mp.weixin.qq.com/s/1X6ZZzoZx3lyoxQuzYfwdg?scene=1&click_id=38



    1.引言

    近年來,多模態(tài)大語言模型在圖像理解、視覺問答和視覺推理任務(wù)中取得了顯著進(jìn)展。然而,在真實(shí)場景中,圖像往往并不會(huì)把完整故事全部呈現(xiàn)出來。一張靜態(tài)圖片可能只展示了事件發(fā)生的某一個(gè)瞬間,而真正回答問題所需的信息,可能隱藏在圖片發(fā)生之前、之后,或者需要結(jié)合常識(shí)進(jìn)行補(bǔ)全。

    例如,當(dāng)模型看到一個(gè)人穿著睡袍站在臥室里時(shí),它可以較容易判斷出“他可能準(zhǔn)備睡覺”。這是因?yàn)閳D像中已經(jīng)包含了足夠的視覺線索:床、臥室、睡衣等。但如果圖像只展示一個(gè)人落水、船只傾斜、周圍有水花,模型可能會(huì)簡單根據(jù)“水”這一表面線索回答“人在水里”。然而,人類可能會(huì)進(jìn)一步結(jié)合常識(shí)推斷:這個(gè)人可能在一艘正在下沉的船上,處于危險(xiǎn)情境中。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 1 視覺推理的挑戰(zhàn):充分 vs. 不充分的視覺敘事。

     

    這類問題的核心在于:

    圖像中的視覺敘事并不總是充分的。模型不僅需要識(shí)別圖像中有什么,還需要推斷圖像背后可能發(fā)生了什么。

    針對這一問題,我們提出了 CoVCR,一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下,能夠生成并利用合理的上下文線索,從而做出更加穩(wěn)健、可信的推理。

     

    2.方法

    CoVCR 的核心思想是:為圖像生成合理的上下文,讓模型根據(jù)這些上下文進(jìn)行推理。整體框架包含兩個(gè)階段:(1)視覺上下文生成學(xué)習(xí)階段;(2)視覺推理微調(diào)階段。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 2  CoVCR 框架。在第一階段,視覺上下文生成模型會(huì)生成上下文描述,從靜態(tài)圖像中推斷出合理的內(nèi)部和外部線索。在第二階段,一個(gè)融合上下文的適配器會(huì)將這些上下文線索與視覺特征有選擇地整合,以進(jìn)行魯棒的多模態(tài)推理。

     

    2.1 第一階段:視覺上下文生成學(xué)習(xí)

    在第一階段,CoVCR 訓(xùn)練一個(gè)視覺上下文生成模型,用于從靜態(tài)圖像中生成兩類上下文信息:

    (1)內(nèi)部上下文:當(dāng)前正在發(fā)生什么?

    內(nèi)部上下文關(guān)注圖像內(nèi)部已經(jīng)出現(xiàn)的事件和關(guān)系,例如:誰在做什么;物體之間有什么關(guān)系;當(dāng)前場景中正在發(fā)生什么動(dòng)作等。這類信息可以幫助模型更準(zhǔn)確理解當(dāng)前畫面。

    (2)外部上下文:之前發(fā)生了什么,之后可能發(fā)生什么?

    外部上下文關(guān)注圖像之外的時(shí)間線索,包括:這個(gè)場景之前可能發(fā)生了什么;當(dāng)前事件為什么會(huì)發(fā)生;接下來可能會(huì)發(fā)生什么。這類信息可以幫助模型補(bǔ)足靜態(tài)圖像中缺失的敘事信息。

    在訓(xùn)練過程中,模型使用 VisualCOMET 數(shù)據(jù)集學(xué)習(xí)如何根據(jù)圖像生成合理的事件上下文。為了提高訓(xùn)練效率,圖像編碼器和大語言模型主體保持凍結(jié),僅訓(xùn)練 Q-Former 模塊,使其學(xué)會(huì)從圖像中抽取有用的上下文線索。

     

    2.2 第二階段:視覺推理微調(diào)

    在第二階段,CoVCR 會(huì)將第一階段生成的上下文用于下游視覺推理任務(wù)。具體來說,模型會(huì)同時(shí)利用三類信息:圖像視覺特征;問題文本;生成的內(nèi)部上下文和外部上下文。

    為了避免直接拼接大量上下文導(dǎo)致噪聲增加,CoVCR 設(shè)計(jì)了一個(gè) context-infused adapter,用于動(dòng)態(tài)篩選和融合上下文信息。該模塊主要包含三個(gè)部分:

    (1)Context Extractor:從上下文中提取與圖像相關(guān)的信息

    由于上下文文本并不是全部都有用,因此,CoVCR 使用 cross-attention 機(jī)制,讓內(nèi)部上下文和外部上下文分別與圖像特征進(jìn)行交互,從而提取與視覺內(nèi)容相關(guān)的上下文表示。

    (2)Dynamic Gating:動(dòng)態(tài)判斷該相信哪類上下文

    不同問題對上下文的需求不同。有的問題主要依賴當(dāng)前畫面即可回答,更需要內(nèi)部上下文;有的問題需要推斷過去或未來事件,更需要外部上下文。

    因此,CoVCR 設(shè)計(jì)了動(dòng)態(tài)門控機(jī)制,根據(jù)圖像和問題自動(dòng)分配內(nèi)部上下文與外部上下文的權(quán)重。

    (3)Resampler Decoder:壓縮上下文,保留關(guān)鍵信息

    生成的上下文可能比較長,如果全部輸入大語言模型,會(huì)增加計(jì)算成本,也可能引入冗余信息。因此,CoVCR 使用 resampler decoder 將上下文壓縮為固定長度的 cue embeddings。這些壓縮后的上下文表示再與視覺特征、問題文本一起輸入大語言模型,最終生成答案。


    3.實(shí)驗(yàn)結(jié)果

    3.1定量分析

    我們在多個(gè)推理和問答任務(wù)上驗(yàn)證了 CoVCR 的效果。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    表 1 在VCR驗(yàn)證集上的評(píng)估結(jié)果

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    表 2 在VisualCOMET驗(yàn)證集上的評(píng)估結(jié)果


    結(jié)果表明,相比現(xiàn)有方法以及 Qwen2.5-VL、mPLUG-Owl3、EventLens 等強(qiáng)基線方法,CoVCR 在綜合推理任務(wù) Q→AR 上提升尤為明顯。這說明生成并融合上下文對于復(fù)雜視覺常識(shí)推理尤其重要。其次,CIDEr 和 METEOR 的提升說明,CoVCR 生成的上下文不僅在文字重合度上更好,也在語義豐富性和表達(dá)合理性上更優(yōu)。

     

    3.2 定性分析

    在定性分析中,CoVCR 能夠?yàn)殪o態(tài)圖像生成關(guān)于過去、當(dāng)前和未來事件的合理的描述。

    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    圖 3 案例分析

    如圖所示,對于一個(gè)會(huì)議場景,模型不僅聯(lián)想到人物正在展示文件,還能推斷此前可能進(jìn)行了討論,之后可能會(huì)根據(jù)文件內(nèi)容采取行動(dòng)。對于一個(gè)調(diào)查板場景,模型不僅看到照片和資料板,還能推斷人物可能在調(diào)查某個(gè)嫌疑人,并進(jìn)一步根據(jù)線索展開行動(dòng)。這些案例說明,CoVCR 能夠幫助模型建立更完整的事件鏈條,從而緩解靜態(tài)圖像中視覺敘事不足的問題。

     

    論文信息及下載地址如下:

    CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning

     Xinyu Li, Shiliang Sun

     CVPR Findings

    https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_CoVCR_Bridging_Visual_Narrative_Gaps_via_Context_Generation_for_Robust_CVPRF_2026_paper.pdf


    CVPR 2026 | CoVCR:基于大模型上下文生成的視覺常識(shí)推理

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 美女一区二区在线观看| 国产chinese在线视频| 中文字幕午夜AV福利片| 上司的丰满人妻中文字幕| 国产另类ts人妖一区二区| 亚洲国产精品人人做人人爱| 午夜成人亚洲理伦片在线观看| 东京热无码国产精品| 国产最大成人亚洲精品| 国产jjizz女人多水| 一边摸一边叫床一边爽视频| 黄网站色视频免费观看| 国产精品视频午夜福利| 性色av免费观看| 99热亚洲精品6码| 自拍偷拍亚洲一区| 亚洲色图综合| 一本大道东京热无码av| 亚洲精品久久久久国色天香| 久久久久成人精品| 久久av片| 欧美福利社| 日韩亚洲精品中文字幕| 少妇人妻偷人免费观看| 国产精品国产三级在线专区| 中国成人黄色自拍视频| 国产精品自在线拍国产手青青机版 | 久久国产精品波多野结衣| 日韩中文字幕一区二区不卡| 亚洲欧美日产综合在线网| 日日摸夜夜爽-| 综合欧美日韩一区二区三区| 中文字幕在线日韩一区| 国产精品护士| 成人无码区免费视频| 五月天婷婷超碰| 天天综合天天添夜夜添狠狠添| 在线观看成人永久免费网站| 成人午夜av在线播放| awww在线天堂bd资源在线| 亚洲涩涩|