0
| 本文作者: 陳淑瑜 | 2026-06-02 18:11 |
來源:微信公眾號(hào)“PRML Research Group”
原文鏈接:https://mp.weixin.qq.com/s/1X6ZZzoZx3lyoxQuzYfwdg?scene=1&click_id=38
1.引言
近年來,多模態(tài)大語言模型在圖像理解、視覺問答和視覺推理任務(wù)中取得了顯著進(jìn)展。然而,在真實(shí)場景中,圖像往往并不會(huì)把完整故事全部呈現(xiàn)出來。一張靜態(tài)圖片可能只展示了事件發(fā)生的某一個(gè)瞬間,而真正回答問題所需的信息,可能隱藏在圖片發(fā)生之前、之后,或者需要結(jié)合常識(shí)進(jìn)行補(bǔ)全。
例如,當(dāng)模型看到一個(gè)人穿著睡袍站在臥室里時(shí),它可以較容易判斷出“他可能準(zhǔn)備睡覺”。這是因?yàn)閳D像中已經(jīng)包含了足夠的視覺線索:床、臥室、睡衣等。但如果圖像只展示一個(gè)人落水、船只傾斜、周圍有水花,模型可能會(huì)簡單根據(jù)“水”這一表面線索回答“人在水里”。然而,人類可能會(huì)進(jìn)一步結(jié)合常識(shí)推斷:這個(gè)人可能在一艘正在下沉的船上,處于危險(xiǎn)情境中。

圖 1 視覺推理的挑戰(zhàn):充分 vs. 不充分的視覺敘事。
這類問題的核心在于:
圖像中的視覺敘事并不總是充分的。模型不僅需要識(shí)別圖像中有什么,還需要推斷圖像背后可能發(fā)生了什么。
針對這一問題,我們提出了 CoVCR,一個(gè)面向視覺常識(shí)推理的上下文增強(qiáng)框架。它的目標(biāo)是讓模型在視覺信息不足或語義不完整的情況下,能夠生成并利用合理的上下文線索,從而做出更加穩(wěn)健、可信的推理。
2.方法
CoVCR 的核心思想是:為圖像生成合理的上下文,讓模型根據(jù)這些上下文進(jìn)行推理。整體框架包含兩個(gè)階段:(1)視覺上下文生成學(xué)習(xí)階段;(2)視覺推理微調(diào)階段。

圖 2 CoVCR 框架。在第一階段,視覺上下文生成模型會(huì)生成上下文描述,從靜態(tài)圖像中推斷出合理的內(nèi)部和外部線索。在第二階段,一個(gè)融合上下文的適配器會(huì)將這些上下文線索與視覺特征有選擇地整合,以進(jìn)行魯棒的多模態(tài)推理。
2.1 第一階段:視覺上下文生成學(xué)習(xí)
在第一階段,CoVCR 訓(xùn)練一個(gè)視覺上下文生成模型,用于從靜態(tài)圖像中生成兩類上下文信息:
(1)內(nèi)部上下文:當(dāng)前正在發(fā)生什么?
內(nèi)部上下文關(guān)注圖像內(nèi)部已經(jīng)出現(xiàn)的事件和關(guān)系,例如:誰在做什么;物體之間有什么關(guān)系;當(dāng)前場景中正在發(fā)生什么動(dòng)作等。這類信息可以幫助模型更準(zhǔn)確理解當(dāng)前畫面。
(2)外部上下文:之前發(fā)生了什么,之后可能發(fā)生什么?
外部上下文關(guān)注圖像之外的時(shí)間線索,包括:這個(gè)場景之前可能發(fā)生了什么;當(dāng)前事件為什么會(huì)發(fā)生;接下來可能會(huì)發(fā)生什么。這類信息可以幫助模型補(bǔ)足靜態(tài)圖像中缺失的敘事信息。
在訓(xùn)練過程中,模型使用 VisualCOMET 數(shù)據(jù)集學(xué)習(xí)如何根據(jù)圖像生成合理的事件上下文。為了提高訓(xùn)練效率,圖像編碼器和大語言模型主體保持凍結(jié),僅訓(xùn)練 Q-Former 模塊,使其學(xué)會(huì)從圖像中抽取有用的上下文線索。
2.2 第二階段:視覺推理微調(diào)
在第二階段,CoVCR 會(huì)將第一階段生成的上下文用于下游視覺推理任務(wù)。具體來說,模型會(huì)同時(shí)利用三類信息:圖像視覺特征;問題文本;生成的內(nèi)部上下文和外部上下文。
為了避免直接拼接大量上下文導(dǎo)致噪聲增加,CoVCR 設(shè)計(jì)了一個(gè) context-infused adapter,用于動(dòng)態(tài)篩選和融合上下文信息。該模塊主要包含三個(gè)部分:
(1)Context Extractor:從上下文中提取與圖像相關(guān)的信息
由于上下文文本并不是全部都有用,因此,CoVCR 使用 cross-attention 機(jī)制,讓內(nèi)部上下文和外部上下文分別與圖像特征進(jìn)行交互,從而提取與視覺內(nèi)容相關(guān)的上下文表示。
(2)Dynamic Gating:動(dòng)態(tài)判斷該相信哪類上下文
不同問題對上下文的需求不同。有的問題主要依賴當(dāng)前畫面即可回答,更需要內(nèi)部上下文;有的問題需要推斷過去或未來事件,更需要外部上下文。
因此,CoVCR 設(shè)計(jì)了動(dòng)態(tài)門控機(jī)制,根據(jù)圖像和問題自動(dòng)分配內(nèi)部上下文與外部上下文的權(quán)重。
(3)Resampler Decoder:壓縮上下文,保留關(guān)鍵信息
生成的上下文可能比較長,如果全部輸入大語言模型,會(huì)增加計(jì)算成本,也可能引入冗余信息。因此,CoVCR 使用 resampler decoder 將上下文壓縮為固定長度的 cue embeddings。這些壓縮后的上下文表示再與視覺特征、問題文本一起輸入大語言模型,最終生成答案。
3.實(shí)驗(yàn)結(jié)果
3.1定量分析
我們在多個(gè)推理和問答任務(wù)上驗(yàn)證了 CoVCR 的效果。

表 1 在VCR驗(yàn)證集上的評(píng)估結(jié)果

表 2 在VisualCOMET驗(yàn)證集上的評(píng)估結(jié)果
結(jié)果表明,相比現(xiàn)有方法以及 Qwen2.5-VL、mPLUG-Owl3、EventLens 等強(qiáng)基線方法,CoVCR 在綜合推理任務(wù) Q→AR 上提升尤為明顯。這說明生成并融合上下文對于復(fù)雜視覺常識(shí)推理尤其重要。其次,CIDEr 和 METEOR 的提升說明,CoVCR 生成的上下文不僅在文字重合度上更好,也在語義豐富性和表達(dá)合理性上更優(yōu)。
3.2 定性分析
在定性分析中,CoVCR 能夠?yàn)殪o態(tài)圖像生成關(guān)于過去、當(dāng)前和未來事件的合理的描述。

圖 3 案例分析
如圖所示,對于一個(gè)會(huì)議場景,模型不僅聯(lián)想到人物正在展示文件,還能推斷此前可能進(jìn)行了討論,之后可能會(huì)根據(jù)文件內(nèi)容采取行動(dòng)。對于一個(gè)調(diào)查板場景,模型不僅看到照片和資料板,還能推斷人物可能在調(diào)查某個(gè)嫌疑人,并進(jìn)一步根據(jù)線索展開行動(dòng)。這些案例說明,CoVCR 能夠幫助模型建立更完整的事件鏈條,從而緩解靜態(tài)圖像中視覺敘事不足的問題。
論文信息及下載地址如下:
CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning
Xinyu Li, Shiliang Sun
CVPR Findings
https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_CoVCR_Bridging_Visual_Narrative_Gaps_via_Context_Generation_for_Robust_CVPRF_2026_paper.pdf