• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    本文作者: 陳淑瑜   2026-06-11 13:44 專題:CVPR 計算機視覺與模式識別會議
    導語:用 VLM 生成 object-level supervision,再訓練專門模型,是一個很可復用的思路。

     

    來源:公眾號“AI上分搭子”

    原文鏈接:https://mp.weixin.qq.com/s/M8hMiiMzQeIcRwwPe7eZ3Q

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    TL;DR

    Dense Video Object Captioning,簡稱 DVOC。

    它想做的事很細:

    • ? 在視頻里找到每個物體;
    • ? 給它分割 mask 或 box;
    • ? 跨幀跟住它;
    • ? 最后為這條物體軌跡寫一句 caption。

    這篇 CVPR 2026 論文走了一條很干凈的路線。

    先造數據。

    作者用 Gemini 2.0 Flash 給 LVIS 和 LV-VIS 生成 object-level captions,得到兩個新數據集:LVISCap 和 LV-VISCap

    再訓模型。

    CaptionFormer 用 OVFormer / Mask2Former 做 clip-level segmentation,再把同一個物體在多個片段里的 query 聚合起來,交給 BLIP-2 風格的 captioning head。

    結果也比較清楚:

    • VidSTG:CHOTA 到 64.0
    • VLN:CHOTA 到 47.7
    • BenSMOT:CIDEr 到 42.6
    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚



    01|視頻理解里,有個很麻煩的小任務

    普通的視頻檢測任務,大多回答:

    畫面里有什么?

    Tracking 再多問一句:

    這個物體下一幀去哪了?

    DVOC 要求更細。

    它希望模型對視頻里的每個物體都交出一份“小報告”:

    • ? 它在哪里;
    • ? 它屬于哪條軌跡;
    • ? 它在做什么;
    • ? 怎么用自然語言描述它。

    比如一個人拿著削筆刀,模型不能只說“person”。

    它最好能描述:

    一個人正用手拿著并轉動一個黑色削筆刀。

    聽起來只是多一句話。

    但訓練時會很貴。

    因為每個視頻都有多個物體,每個物體又跨越多個時間點。要給這些軌跡逐條寫 caption,人工標注成本會迅速爆炸。

    已有方法通常繞著走:

    • ? 檢測、跟蹤、captioning 分開訓;
    • ? 或者把多個預訓練模塊拼起來;
    • ? 再靠評估時的格式適配完成 DVOC。

    能跑。

    但監督信號沒有真正合在一起。

    CaptionFormer 抓住的,就是這個數據缺口。


    02|Key Insight:segmentation 數據里,其實已經藏著半個答案

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    Figure 2 是這篇論文最值得先看的圖。

    它講數據怎么來。

    LVIS 和 LV-VIS 本來就有物體 mask、box 和 category。

    缺的是 caption。

    作者沒有從零人工寫 caption,而是把已有標注轉成一個 VLM 能理解的問題:

    請描述這個被框出來的物體。

    做法并不繞。

    先從 mask 提取 bounding box。

    再把目標物體的 box 畫到視頻幀上。

    然后把這些信息寫進 prompt:

    • ? 目標類別;
    • ? bbox 坐標;
    • ? bbox 面積;
    • ? 其他物體類別;
    • ? 少量示例。

    最后送給 Gemini 2.0 Flash,生成 object-level caption。

    這樣一來,原來的 segmentation 數據集被擴展成 DVOC 訓練集:

    • LVISCap:圖像物體 caption,用來做 image-level pretraining;
    • LV-VISCap:視頻物體軌跡 caption,用來做 video-level training。

    這一步把問題換了一個形態:不再死磕昂貴人工標注,而是想辦法穩定地產生細粒度監督。


    03|CaptionFormer 怎么工作

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    Figure 3 是方法圖。

    CaptionFormer 大致分三段。

    第一段:clip-level 視覺理解

    視頻被切成若干 clip。

    每個 clip 先經過 OVFormer / Mask2Former,輸出 object queries。

    這些 query 會對應:

    • ? mask;
    • ? box;
    • ? object score;
    • ? class score。

    第二段:跨 clip 跟蹤

    同一個物體會出現在不同 clip 里。

    模型用 Hungarian matching 做 query matching,把這些片段接成軌跡。

    這一步讓模型能處理“物體消失又出現”的情況。

    第三段:給軌跡寫 caption

    對每條物體軌跡,CaptionFormer 會從多個 clip 里取 query。

    再做 temporal aggregation。

    最后把聚合后的 video-level query 送到 BLIP-2 風格的 LLM decoder,生成一句 caption。

    最后輸出的是:

    一條物體軌跡 + mask / box + caption。

    DVOC 需要的幾件事,在同一個模型里接上了。


    04|最少公式版理解

    這里保留三條公式。

    不用細摳符號,看它們分別在做什么就夠了。

    1. 把 mask 變成 VLM 能看的視覺提示

    意思是:

    第  個物體的 bounding box 被畫到第  幀上。

    VLM 看到的不是原始視頻,而是“這個框里的物體”。


    2. 把多個 clip 的 query 聚合成一條軌跡表示

    同一個物體在不同 clip 里會有不同 query。

    CaptionFormer 用檢測分數  做權重,把它們匯總起來。

    這就是 temporal aggregation。


    3. 訓練時把視覺和語言監督放在一起

    這里不用糾結某個 loss 的細節。

    關鍵在于,captioning loss 也會回到 object query 上。

    這讓 caption 監督不只是最后接一個文字生成頭,而是參與塑造物體表示。


    05|實驗結果:它到底強在哪

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    Table 3 是 VidSTG 上的主結果。

    先看幾組數字。

    Benchmark
    方法
    關鍵指標
    VidSTG
    DVOC-DS
    CHOTA 56.9
    VidSTG
    CaptionFormer + temp agg
    CHOTA 64.0
    VidSTG
    DVOC-DS
    CapA 39.7
    VidSTG
    CaptionFormer + temp agg
    CapA 55.4

    VidSTG 里,CapA 的提升尤其明顯。

    synthetic object captions 不是裝飾性的文字補丁,它補的是 DVOC 最缺的監督。

    再看 VLN。

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚
    Benchmark
    方法
    CHOTA
    VLN
    DVOC-DS
    41.3
    VLN
    CaptionFormer
    45.4
    VLN
    CaptionFormer + mask loss + temp agg
    47.7

    這張表還有一個細節。

    加入 mask loss 后,DetA 從 48.7 到 50.1,AssA 從 89.7 到 92.7。

    也就是說,把 DVOC 從 box 擴展到 segmentation mask,不只是形式上更細,指標也受益。

    BenSMOT 上看 CIDEr。

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚
    方法
    CIDEr
    SMOTer
    8.7
    DVOC-DS
    25.4
    CaptionFormer
    39.9
    CaptionFormer + temp agg
    42.6

    BenSMOT 主要關注人。

    CaptionFormer 在這里的 CIDEr 提升很大,說明它對“物體軌跡描述”本身更有優勢。

    還有一個實際成本信息也值得留意。

    作者寫到,相比 DVOC-DS 的 2032 GPU hours,他們的方法對應 208 GPU hours

    如果這個數字在復現中能站住,CaptionFormer 不只是效果更好,也更容易被后續工作拿來用。


    06|Ablation:哪些設計真的有用

    Ablation 部分可以看四個地方。

    Prompt 怎么寫

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    Table 1 很直觀。

    只給單幀或多幀,人工評分只有 26.8 / 27.1

    加入 category labels 后,直接到 80.7

    再加 bbox coordinates、bbox area 和 few-shot examples,最終到 85.1

    這個差距很說明問題。

    VLM 本身很強,但它不會自動知道你到底想描述哪個物體。

    框、類別、面積、上下文,這些提示都在幫模型把注意力落到目標軌跡上。

    LVISCap 和 LV-VISCap 是否互補

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    SwinB 設置下:

    訓練數據
    CHOTA
    只用 LV-VISCap
    54.7
    只用 LVISCap
    45.8
    LVISCap + LV-VISCap
    59.5

    圖像數據給規模。

    視頻數據給時間和軌跡語境。

    兩者合起來,模型表現最好。

    數據規模還能不能繼續吃

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    Figure 4 顯示,CapA 和 LVISCap captions 數量呈 log-linear 相關。

    換成更直白的話:

    繼續生成更多 caption,可能還有提升空間。

    當然,前提是 caption 質量不能塌。

    temporal aggregation 有沒有必要

    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚
    聚合方式
    CapA
    CHOTA
    1 clip, best score
    51.0
    62.3
    8 uniform clips
    52.7
    63.0
    16 uniform clips
    53.8
    63.4
    32 uniform clips
    55.464.0

    視頻里的動作通常不是一幀能講完的。

    多個 clip 聚合后,captioning 的信息更完整。

    Table 8 還有一個小驚喜。

    加入 captioning loss 后,LV-VISCap 上 video instance segmentation 的 mAP 從 31.7 到 34.2

    caption 監督反過來幫了視覺 query。

    這也是本文一個挺有意思的副作用。


    07|Takeaway Message

    CaptionFormer 最值得記住的點,是它把 DVOC 缺的監督補齊了。

    每個物體不再只有 mask、box、category。

    它還有一條跨時間的 caption。

    有了這份數據,模型就可以圍繞 object query 同時學習:

    • ? 分割;
    • ? 檢測;
    • ? 跟蹤;
    • ? 描述。

    這條路線的實用性很強。

    先用強 VLM 批量生成細粒度監督。

    再訓練一個更專門、更可評估的視頻模型。

    對于長視頻理解、視頻編輯、機器人和交互式檢索,這種“軌跡 + 描述”的輸出會很有用。


    08|代碼、數據與 GPT-5.5 編輯點評

    代碼 / 項目頁:

    • https://www.gabriel.fiastre.fr/captionformer/

    論文正文寫明:code 和 generated annotations 會在項目頁提供。


    GPT-5.5 尾注

    為什么值得看

    • ? DVOC 比普通視頻檢測更接近真實理解:系統要知道物體在哪里,也要能講清楚它在視頻里發生了什么。
    • ? 它沒有只改模型。先補數據,再訓模型,路線比較完整。
    • ? 用 VLM 生成 object-level supervision,再訓練專門模型,是一個很可復用的思路。

    讀的時候要保留的判斷

    • ? CaptionFormer 是面向 DVOC 的專門系統,不是通用視頻大模型。
    • ? synthetic captions 的質量很關鍵。Table 1 已經說明,prompt 寫法會明顯影響標注質量。
    • ? 當前 benchmark 的動作復雜度有限。Table 7 里單個 best-score clip 已經表現不錯,更長、更復雜的視頻可能會更考驗 temporal aggregation。

    后續可以關注什么

    • ? 這套 caption 生成流水線能否擴到更長視頻、更開放類別和更復雜交互。
    • ? 生成 captions 的偏差如何控制,尤其是 VLM 自身的幻覺和模板化描述。
    • ? 如果代碼和標注開放順利,CaptionFormer 可能會成為 DVOC 后續工作的一個方便起點。

    Reference

    • ? Zhou et al. Dense Video Object Captioning from Disjoint Supervision. ICLR 2025.
    • ? Choudhuri et al. OW-VisCapTor: Open-World Video Instance Captioning and Tracking. arXiv 2025.
    • ? Li et al. Beyond MOT: Semantic Multi-Object Tracking. ECCV 2024.
    • ? Fang et al. Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation. ECCV 2025.
    • ? Wang et al. Towards Open-Vocabulary Video Instance Segmentation. ICCV 2023.
    • ? Li et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.

     


    CVPR 2026|DeepMind 出品 CaptionFormer:視頻的每個物體,都能被跟住、分出來、說清楚

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 香港经典a毛片免费观看播放| 亚洲精品乱码| 大陆一级毛片免费播放| 午夜天堂精品一区二区| 亚洲国产欧美目韩成人综合| 日韩熟女熟妇久久精品综合| 色天使综合婷婷国产日韩AV| 丝袜人妻66AV| 日韩在线欧美| 成年午夜无码AV片在线观看| 成人欧美日韩一区二区三区| 亚洲综合国产伊人五月婷| 欧美a视频在线观看| 亚洲精品乱码久久久久久蜜桃| 日韩av综合| 久久久久中文字幕无码少妇| 六月婷婷精品视频在线观看| 999久久久免费精品播放| 天堂…中文在线最新版在线| 人人操人人妻| 成人妇女免费播放久久久| 亚洲AV无码成人精品区不卡| 国产乱人伦偷精品视频麻豆 | 中文字幕乱码高清免费| 人妻精品久久久久中文字幕青草 | 99精品伊人久久久大香线蕉| 久久国产精品老人性| 国产精品亚洲一区二区z| 桃花岛亚洲成在人线AV| 先锋影音中文自拍AV| 板桥市| 亚洲色图导航| 欧美阿v高清资源不卡在线播放 | 久久婷婷亚洲| 色国产视频| 国产精品日韩精品日韩| 亚洲一区二区三区96| 国产精品123| 日日碰狠狠添天天爽五月婷| 国产成人无码区免费内射一片色欲 | 国产精品国产AV片国产|