CVPR 2026｜DeepMind 出品 CaptionFormer：視頻的每個物體，都能被跟住、分出來、說清楚

本文作者：陳淑瑜

2026-06-11 13:44

專題：CVPR 計算機視覺與模式識別會議

導語：用 VLM 生成 object-level supervision，再訓練專門模型，是一個很可復用的思路。

來源：公眾號“AI上分搭子”

原文鏈接：https://mp.weixin.qq.com/s/M8hMiiMzQeIcRwwPe7eZ3Q

CVPR 2026｜DeepMind 出品 CaptionFormer：視頻的每個物體，都能被跟住、分出來、說清楚

TL;DR

Dense Video Object Captioning，簡稱 DVOC。

它想做的事很細：

? 在視頻里找到每個物體；
? 給它分割 mask 或 box；
? 跨幀跟住它；
? 最后為這條物體軌跡寫一句 caption。

這篇 CVPR 2026 論文走了一條很干凈的路線。

先造數據。

作者用 Gemini 2.0 Flash 給 LVIS 和 LV-VIS 生成 object-level captions，得到兩個新數據集：LVISCap 和 LV-VISCap。

再訓模型。

CaptionFormer 用 OVFormer / Mask2Former 做 clip-level segmentation，再把同一個物體在多個片段里的 query 聚合起來，交給 BLIP-2 風格的 captioning head。

結果也比較清楚：

? VidSTG：CHOTA 到 64.0
? VLN：CHOTA 到 47.7
? BenSMOT：CIDEr 到 42.6

01｜視頻理解里，有個很麻煩的小任務

普通的視頻檢測任務，大多回答：

畫面里有什么？

Tracking 再多問一句：

這個物體下一幀去哪了？

DVOC 要求更細。

它希望模型對視頻里的每個物體都交出一份“小報告”：

? 它在哪里；
? 它屬于哪條軌跡；
? 它在做什么；
? 怎么用自然語言描述它。

比如一個人拿著削筆刀，模型不能只說“person”。

它最好能描述：

一個人正用手拿著并轉動一個黑色削筆刀。

聽起來只是多一句話。

但訓練時會很貴。

因為每個視頻都有多個物體，每個物體又跨越多個時間點。要給這些軌跡逐條寫 caption，人工標注成本會迅速爆炸。

已有方法通常繞著走：

? 檢測、跟蹤、captioning 分開訓；
? 或者把多個預訓練模塊拼起來；
? 再靠評估時的格式適配完成 DVOC。

能跑。

但監督信號沒有真正合在一起。

CaptionFormer 抓住的，就是這個數據缺口。

02｜Key Insight：segmentation 數據里，其實已經藏著半個答案

Figure 2 是這篇論文最值得先看的圖。

它講數據怎么來。

LVIS 和 LV-VIS 本來就有物體 mask、box 和 category。

缺的是 caption。

作者沒有從零人工寫 caption，而是把已有標注轉成一個 VLM 能理解的問題：

請描述這個被框出來的物體。

做法并不繞。

先從 mask 提取 bounding box。

再把目標物體的 box 畫到視頻幀上。

然后把這些信息寫進 prompt：

? 目標類別；
? bbox 坐標；
? bbox 面積；
? 其他物體類別；
? 少量示例。

最后送給 Gemini 2.0 Flash，生成 object-level caption。

這樣一來，原來的 segmentation 數據集被擴展成 DVOC 訓練集：

? LVISCap：圖像物體 caption，用來做 image-level pretraining；
? LV-VISCap：視頻物體軌跡 caption，用來做 video-level training。

這一步把問題換了一個形態：不再死磕昂貴人工標注，而是想辦法穩定地產生細粒度監督。

03｜CaptionFormer 怎么工作

Figure 3 是方法圖。

CaptionFormer 大致分三段。

第一段：clip-level 視覺理解

視頻被切成若干 clip。

每個 clip 先經過 OVFormer / Mask2Former，輸出 object queries。

這些 query 會對應：

? mask；
? box；
? object score；
? class score。

第二段：跨 clip 跟蹤

同一個物體會出現在不同 clip 里。

模型用 Hungarian matching 做 query matching，把這些片段接成軌跡。

這一步讓模型能處理“物體消失又出現”的情況。

第三段：給軌跡寫 caption

對每條物體軌跡，CaptionFormer 會從多個 clip 里取 query。

再做 temporal aggregation。

最后把聚合后的 video-level query 送到 BLIP-2 風格的 LLM decoder，生成一句 caption。

最后輸出的是：

一條物體軌跡 + mask / box + caption。

DVOC 需要的幾件事，在同一個模型里接上了。

04｜最少公式版理解

這里保留三條公式。

不用細摳符號，看它們分別在做什么就夠了。

1. 把 mask 變成 VLM 能看的視覺提示

意思是：

第個物體的 bounding box 被畫到第幀上。

VLM 看到的不是原始視頻，而是“這個框里的物體”。

2. 把多個 clip 的 query 聚合成一條軌跡表示

同一個物體在不同 clip 里會有不同 query。

CaptionFormer 用檢測分數做權重，把它們匯總起來。

這就是 temporal aggregation。

3. 訓練時把視覺和語言監督放在一起

這里不用糾結某個 loss 的細節。

關鍵在于，captioning loss 也會回到 object query 上。

這讓 caption 監督不只是最后接一個文字生成頭，而是參與塑造物體表示。

05｜實驗結果：它到底強在哪

Table 3 是 VidSTG 上的主結果。

先看幾組數字。

Benchmark	方法	關鍵指標
VidSTG	DVOC-DS	CHOTA 56.9
VidSTG	CaptionFormer + temp agg	CHOTA 64.0
VidSTG	DVOC-DS	CapA 39.7
VidSTG	CaptionFormer + temp agg	CapA 55.4

VidSTG 里，CapA 的提升尤其明顯。

synthetic object captions 不是裝飾性的文字補丁，它補的是 DVOC 最缺的監督。

再看 VLN。

Benchmark	方法	CHOTA
VLN	DVOC-DS	41.3
VLN	CaptionFormer	45.4
VLN	CaptionFormer + mask loss + temp agg	47.7

這張表還有一個細節。

加入 mask loss 后，DetA 從 48.7 到 50.1，AssA 從 89.7 到 92.7。

也就是說，把 DVOC 從 box 擴展到 segmentation mask，不只是形式上更細，指標也受益。

BenSMOT 上看 CIDEr。

方法	CIDEr
SMOTer	8.7
DVOC-DS	25.4
CaptionFormer	39.9
CaptionFormer + temp agg	42.6

BenSMOT 主要關注人。

CaptionFormer 在這里的 CIDEr 提升很大，說明它對“物體軌跡描述”本身更有優勢。

還有一個實際成本信息也值得留意。

作者寫到，相比 DVOC-DS 的 2032 GPU hours，他們的方法對應 208 GPU hours。

如果這個數字在復現中能站住，CaptionFormer 不只是效果更好，也更容易被后續工作拿來用。

06｜Ablation：哪些設計真的有用

Ablation 部分可以看四個地方。

Prompt 怎么寫

Table 1 很直觀。

只給單幀或多幀，人工評分只有 26.8 / 27.1。

加入 category labels 后，直接到 80.7。

再加 bbox coordinates、bbox area 和 few-shot examples，最終到 85.1。

這個差距很說明問題。

VLM 本身很強，但它不會自動知道你到底想描述哪個物體。

框、類別、面積、上下文，這些提示都在幫模型把注意力落到目標軌跡上。

LVISCap 和 LV-VISCap 是否互補

SwinB 設置下：

訓練數據	CHOTA
只用 LV-VISCap	54.7
只用 LVISCap	45.8
LVISCap + LV-VISCap	59.5

圖像數據給規模。

視頻數據給時間和軌跡語境。

兩者合起來，模型表現最好。

數據規模還能不能繼續吃

Figure 4 顯示，CapA 和 LVISCap captions 數量呈 log-linear 相關。

換成更直白的話：

繼續生成更多 caption，可能還有提升空間。

當然，前提是 caption 質量不能塌。

temporal aggregation 有沒有必要

聚合方式	CapA	CHOTA
1 clip, best score	51.0	62.3
8 uniform clips	52.7	63.0
16 uniform clips	53.8	63.4
32 uniform clips	55.4	64.0

視頻里的動作通常不是一幀能講完的。

多個 clip 聚合后，captioning 的信息更完整。

Table 8 還有一個小驚喜。

加入 captioning loss 后，LV-VISCap 上 video instance segmentation 的 mAP 從 31.7 到 34.2。

caption 監督反過來幫了視覺 query。

這也是本文一個挺有意思的副作用。

07｜Takeaway Message

CaptionFormer 最值得記住的點，是它把 DVOC 缺的監督補齊了。

每個物體不再只有 mask、box、category。

它還有一條跨時間的 caption。

有了這份數據，模型就可以圍繞 object query 同時學習：

? 分割；
? 檢測；
? 跟蹤；
? 描述。

這條路線的實用性很強。

先用強 VLM 批量生成細粒度監督。

再訓練一個更專門、更可評估的視頻模型。

對于長視頻理解、視頻編輯、機器人和交互式檢索，這種“軌跡 + 描述”的輸出會很有用。

08｜代碼、數據與 GPT-5.5 編輯點評

代碼 / 項目頁：

? https://www.gabriel.fiastre.fr/captionformer/

論文正文寫明：code 和 generated annotations 會在項目頁提供。

GPT-5.5 尾注

為什么值得看

? DVOC 比普通視頻檢測更接近真實理解：系統要知道物體在哪里，也要能講清楚它在視頻里發生了什么。
? 它沒有只改模型。先補數據，再訓模型，路線比較完整。
? 用 VLM 生成 object-level supervision，再訓練專門模型，是一個很可復用的思路。

讀的時候要保留的判斷

? CaptionFormer 是面向 DVOC 的專門系統，不是通用視頻大模型。
? synthetic captions 的質量很關鍵。Table 1 已經說明，prompt 寫法會明顯影響標注質量。
? 當前 benchmark 的動作復雜度有限。Table 7 里單個 best-score clip 已經表現不錯，更長、更復雜的視頻可能會更考驗 temporal aggregation。

后續可以關注什么

? 這套 caption 生成流水線能否擴到更長視頻、更開放類別和更復雜交互。
? 生成 captions 的偏差如何控制，尤其是 VLM 自身的幻覺和模板化描述。
? 如果代碼和標注開放順利，CaptionFormer 可能會成為 DVOC 后續工作的一個方便起點。

Reference

? Zhou et al. Dense Video Object Captioning from Disjoint Supervision. ICLR 2025.
? Choudhuri et al. OW-VisCapTor: Open-World Video Instance Captioning and Tracking. arXiv 2025.
? Li et al. Beyond MOT: Semantic Multi-Object Tracking. ECCV 2024.
? Fang et al. Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation. ECCV 2025.
? Wang et al. Towards Open-Vocabulary Video Instance Segmentation. ICCV 2023.
? Li et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章