CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

本文作者：陳淑瑜

2026-06-02 18:11

導(dǎo)語：我們提出了 CoVCR，一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下，能夠生成并利用合理的上下文線索

來源：微信公眾號(hào)“PRML Research Group”

原文鏈接：https://mp.weixin.qq.com/s/1X6ZZzoZx3lyoxQuzYfwdg?scene=1&click_id=38

1.引言

近年來，多模態(tài)大語言模型在圖像理解、視覺問答和視覺推理任務(wù)中取得了顯著進(jìn)展。然而，在真實(shí)場景中，圖像往往并不會(huì)把完整故事全部呈現(xiàn)出來。一張靜態(tài)圖片可能只展示了事件發(fā)生的某一個(gè)瞬間，而真正回答問題所需的信息，可能隱藏在圖片發(fā)生之前、之后，或者需要結(jié)合常識(shí)進(jìn)行補(bǔ)全。

例如，當(dāng)模型看到一個(gè)人穿著睡袍站在臥室里時(shí)，它可以較容易判斷出“他可能準(zhǔn)備睡覺”。這是因?yàn)閳D像中已經(jīng)包含了足夠的視覺線索：床、臥室、睡衣等。但如果圖像只展示一個(gè)人落水、船只傾斜、周圍有水花，模型可能會(huì)簡單根據(jù)“水”這一表面線索回答“人在水里”。然而，人類可能會(huì)進(jìn)一步結(jié)合常識(shí)推斷：這個(gè)人可能在一艘正在下沉的船上，處于危險(xiǎn)情境中。

CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

圖 1 視覺推理的挑戰(zhàn)：充分 vs. 不充分的視覺敘事。

這類問題的核心在于：

圖像中的視覺敘事并不總是充分的。模型不僅需要識(shí)別圖像中有什么，還需要推斷圖像背后可能發(fā)生了什么。

針對這一問題，我們提出了 CoVCR，一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下，能夠生成并利用合理的上下文線索，從而做出更加穩(wěn)健、可信的推理。

2.方法

CoVCR 的核心思想是：為圖像生成合理的上下文，讓模型根據(jù)這些上下文進(jìn)行推理。整體框架包含兩個(gè)階段：（1）視覺上下文生成學(xué)習(xí)階段；（2）視覺推理微調(diào)階段。

CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

圖 2 CoVCR 框架。在第一階段，視覺上下文生成模型會(huì)生成上下文描述，從靜態(tài)圖像中推斷出合理的內(nèi)部和外部線索。在第二階段，一個(gè)融合上下文的適配器會(huì)將這些上下文線索與視覺特征有選擇地整合，以進(jìn)行魯棒的多模態(tài)推理。

2.1 第一階段：視覺上下文生成學(xué)習(xí)

在第一階段，CoVCR 訓(xùn)練一個(gè)視覺上下文生成模型，用于從靜態(tài)圖像中生成兩類上下文信息：

（1）內(nèi)部上下文：當(dāng)前正在發(fā)生什么？

內(nèi)部上下文關(guān)注圖像內(nèi)部已經(jīng)出現(xiàn)的事件和關(guān)系，例如：誰在做什么；物體之間有什么關(guān)系；當(dāng)前場景中正在發(fā)生什么動(dòng)作等。這類信息可以幫助模型更準(zhǔn)確理解當(dāng)前畫面。

（2）外部上下文：之前發(fā)生了什么，之后可能發(fā)生什么？

外部上下文關(guān)注圖像之外的時(shí)間線索，包括：這個(gè)場景之前可能發(fā)生了什么；當(dāng)前事件為什么會(huì)發(fā)生；接下來可能會(huì)發(fā)生什么。這類信息可以幫助模型補(bǔ)足靜態(tài)圖像中缺失的敘事信息。

在訓(xùn)練過程中，模型使用 VisualCOMET 數(shù)據(jù)集學(xué)習(xí)如何根據(jù)圖像生成合理的事件上下文。為了提高訓(xùn)練效率，圖像編碼器和大語言模型主體保持凍結(jié)，僅訓(xùn)練 Q-Former 模塊，使其學(xué)會(huì)從圖像中抽取有用的上下文線索。

2.2 第二階段：視覺推理微調(diào)

在第二階段，CoVCR 會(huì)將第一階段生成的上下文用于下游視覺推理任務(wù)。具體來說，模型會(huì)同時(shí)利用三類信息：圖像視覺特征；問題文本；生成的內(nèi)部上下文和外部上下文。

為了避免直接拼接大量上下文導(dǎo)致噪聲增加，CoVCR 設(shè)計(jì)了一個(gè) context-infused adapter，用于動(dòng)態(tài)篩選和融合上下文信息。該模塊主要包含三個(gè)部分：

（1）Context Extractor：從上下文中提取與圖像相關(guān)的信息

由于上下文文本并不是全部都有用，因此，CoVCR 使用 cross-attention 機(jī)制，讓內(nèi)部上下文和外部上下文分別與圖像特征進(jìn)行交互，從而提取與視覺內(nèi)容相關(guān)的上下文表示。

（2）Dynamic Gating：動(dòng)態(tài)判斷該相信哪類上下文

不同問題對上下文的需求不同。有的問題主要依賴當(dāng)前畫面即可回答，更需要內(nèi)部上下文；有的問題需要推斷過去或未來事件，更需要外部上下文。

因此，CoVCR 設(shè)計(jì)了動(dòng)態(tài)門控機(jī)制，根據(jù)圖像和問題自動(dòng)分配內(nèi)部上下文與外部上下文的權(quán)重。

（3）Resampler Decoder：壓縮上下文，保留關(guān)鍵信息

生成的上下文可能比較長，如果全部輸入大語言模型，會(huì)增加計(jì)算成本，也可能引入冗余信息。因此，CoVCR 使用 resampler decoder 將上下文壓縮為固定長度的 cue embeddings。這些壓縮后的上下文表示再與視覺特征、問題文本一起輸入大語言模型，最終生成答案。

3.實(shí)驗(yàn)結(jié)果

3.1定量分析

我們在多個(gè)推理和問答任務(wù)上驗(yàn)證了 CoVCR 的效果。

CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

表 1 在VCR驗(yàn)證集上的評(píng)估結(jié)果

CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

表 2 在VisualCOMET驗(yàn)證集上的評(píng)估結(jié)果

結(jié)果表明，相比現(xiàn)有方法以及 Qwen2.5-VL、mPLUG-Owl3、EventLens 等強(qiáng)基線方法，CoVCR 在綜合推理任務(wù) Q→AR 上提升尤為明顯。這說明生成并融合上下文對于復(fù)雜視覺常識(shí)推理尤其重要。其次，CIDEr 和 METEOR 的提升說明，CoVCR 生成的上下文不僅在文字重合度上更好，也在語義豐富性和表達(dá)合理性上更優(yōu)。

3.2 定性分析

在定性分析中，CoVCR 能夠?yàn)殪o態(tài)圖像生成關(guān)于過去、當(dāng)前和未來事件的合理的描述。

CVPR 2026 | CoVCR：基于大模型上下文生成的視覺常識(shí)推理

圖 3 案例分析

如圖所示，對于一個(gè)會(huì)議場景，模型不僅聯(lián)想到人物正在展示文件，還能推斷此前可能進(jìn)行了討論，之后可能會(huì)根據(jù)文件內(nèi)容采取行動(dòng)。對于一個(gè)調(diào)查板場景，模型不僅看到照片和資料板，還能推斷人物可能在調(diào)查某個(gè)嫌疑人，并進(jìn)一步根據(jù)線索展開行動(dòng)。這些案例說明，CoVCR 能夠幫助模型建立更完整的事件鏈條，從而緩解靜態(tài)圖像中視覺敘事不足的問題。

論文信息及下載地址如下：

CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning

Xinyu Li, Shiliang Sun

CVPR Findings

https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_CoVCR_Bridging_Visual_Narrative_Gaps_via_Context_Generation_for_Robust_CVPRF_2026_paper.pdf

0人收藏

相關(guān)文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章