CVPR 2026 Highlight | 慕尼黑工業(yè)大學(xué)&英偉達(dá)等提出 VideoCUPS：利用運(yùn)動與深度線索,首個(gè)無監(jiān)督視頻全景分割框架，性能刷新 SOTA

本文作者：陳淑瑜

2026-06-05 18:38

導(dǎo)語：VideoCUPS的核心魅力在于：完全不需要人類標(biāo)注，僅憑普通的單目視頻，就能“自學(xué)”成才，實(shí)現(xiàn)高質(zhì)量的視頻全景理解。

來源：公眾號“我愛計(jì)算機(jī)視覺”

原文鏈接：https://mp.weixin.qq.com/s/ZAI3_QVi_70Y4AJiGLuxLQ

在計(jì)算機(jī)視覺的世界里，視頻全景分割（Video Panoptic Segmentation, VPS）一直被視為一項(xiàng)“全能且昂貴”的任務(wù)。它不僅要求模型識別出視頻中的每一個(gè)像素屬于什么類別（語義分割），還要區(qū)分出不同的個(gè)體（實(shí)例分割），并且在時(shí)間軸上準(zhǔn)確地將它們關(guān)聯(lián)起來（目標(biāo)跟蹤）。

然而，高質(zhì)量的 VPS 標(biāo)注成本高得驚人。為了解決這一痛點(diǎn)，來自慕尼黑工業(yè)大學(xué)、達(dá)姆施塔特工業(yè)大學(xué)、英偉達(dá)以及牛津大學(xué)等研究團(tuán)隊(duì)聯(lián)合推出了 VideoCUPS。它的核心魅力在于：完全不需要人類標(biāo)注，僅憑普通的單目視頻，就能“自學(xué)”成才，實(shí)現(xiàn)高質(zhì)量的視頻全景理解。

CVPR 2026 Highlight | 慕尼黑工業(yè)大學(xué)&英偉達(dá)等提出 VideoCUPS：利用運(yùn)動與深度線索,首個(gè)無監(jiān)督視頻全景分割框架，性能刷新 SOTA

論文地址: https://arxiv.org/abs/2606.04925
項(xiàng)目主頁: https://visinf.github.io/videocups
代碼倉庫: https://github.com/visinf/cups/tree/main/videocups
機(jī)構(gòu): 慕尼黑工業(yè)大學(xué)、達(dá)姆施塔特工業(yè)大學(xué)、英偉達(dá)、牛津大學(xué)、MCML、ELIZA、hessian.AI

背景與動機(jī)：從圖像到視頻的“跨越”

近年來，無監(jiān)督學(xué)習(xí)在圖像分割領(lǐng)域取得了長足進(jìn)步。比如之前的 U2Seg 或 CUPS，已經(jīng)能在不看標(biāo)簽的情況下把圖片里的車、人、樹分得有模有樣。但當(dāng)我們把目光轉(zhuǎn)向視頻時(shí)，情況變得復(fù)雜了。

視頻多了時(shí)間維度，意味著模型不僅要分得準(zhǔn)，還要跟得住。現(xiàn)有的無監(jiān)督方法大多盯著靜態(tài)圖像，或者只能處理簡單的、以單個(gè)物體為中心的視頻。面對復(fù)雜的真實(shí)駕駛場景（Scene-Centric），如何利用視頻自帶的運(yùn)動（Motion）和深度（Depth）線索來構(gòu)建時(shí)序一致的理解？這就是 VideoCUPS 想要回答的問題。

方法詳解：如何“無中生有”生成偽標(biāo)簽？

VideoCUPS 的核心邏輯分為兩步：第一步是生成高質(zhì)量的視頻全景偽標(biāo)簽；第二步是利用這些偽標(biāo)簽訓(xùn)練一個(gè)強(qiáng)大的 VPS 模型。

1. 偽標(biāo)簽的“三位一體”生成法

為了在沒有標(biāo)注的情況下識別物體，研究者們借鑒了格式塔心理學(xué)（Gestalt principles）中的“共同命運(yùn)”原則：即一起運(yùn)動的像素通常屬于同一個(gè)物體。

運(yùn)動與深度引導(dǎo)的實(shí)例標(biāo)注：系統(tǒng)首先利用無監(jiān)督光流網(wǎng)絡(luò)（SMURF）和單目深度網(wǎng)絡(luò)（DynamoDepth）提取運(yùn)動概率。通過一種改進(jìn)的區(qū)域生長（Region Growing）算法，將像素聚合成實(shí)例掩碼。具體來說，對于像素和其鄰域像素，如果它們的深度相對差異和光流差異均低于設(shè)定閾值，則將它們歸為同一實(shí)例。
自監(jiān)督特征引導(dǎo)的語義標(biāo)注：利用 DINO 特征的語義豐富性進(jìn)行聚類。為了解決遠(yuǎn)近物體尺度不一的問題，VideoCUPS 采用了深度引導(dǎo)的推理策略，將低分辨率的全局語義與高分辨率的局部細(xì)節(jié)進(jìn)行融合。
時(shí)序一致性處理：這是視頻任務(wù)的關(guān)鍵。VideoCUPS 通過光流對實(shí)例進(jìn)行前后幀傳播，并使用匈牙利匹配（Hungarian Matching）算法，確保同一個(gè) ID 能在多幀中保持穩(wěn)定。

值得注意的是，相比于之前的 CUPS 依賴雙目（Stereo）相機(jī)提供的深度信息，VideoCUPS 僅需單目視頻即可完成上述過程。這種對硬件要求的“降級”，實(shí)際上是對算法魯棒性的巨大挑戰(zhàn)。

從上圖可以看到，VideoCUPS 生成的偽標(biāo)簽在處理非剛性運(yùn)動（如行人的肢體動作）時(shí)表現(xiàn)得更加出色，且跟蹤的生命周期更長。

2. 訓(xùn)練策略：Video DropLoss 與自增強(qiáng)

有了偽標(biāo)簽，接下來的挑戰(zhàn)是如何訓(xùn)練模型。偽標(biāo)簽通常是稀疏的——它只能發(fā)現(xiàn)那些正在運(yùn)動的物體，卻容易漏掉路邊停著的靜止車輛。

為此，團(tuán)隊(duì)引入了 Video DropLoss。其數(shù)學(xué)表達(dá)式如下：

這個(gè)損失函數(shù)的設(shè)計(jì)只對那些與偽標(biāo)簽高度重合（IoU 超過閾值）的預(yù)測進(jìn)行強(qiáng)監(jiān)督，而給模型留出了“自由發(fā)揮”的空間。這樣，模型在訓(xùn)練過程中就能通過視覺特征的相似性，自動把那些靜止的、未被偽標(biāo)簽覆蓋的車輛也識別出來。

此外，研究者還設(shè)計(jì)了自增強(qiáng)視頻 Copy-Paste。模型會把自己預(yù)測得最自信的物體“摳”出來，隨機(jī)粘貼到其他視頻剪輯中。這種“自我博弈”的方式極大地提升了模型對小物體的檢測和跟蹤能力。

實(shí)驗(yàn)與結(jié)果：刷新無監(jiān)督 VPS 性能上限

研究團(tuán)隊(duì)在 Cityscapes-VPS、KITTI-STEP、Waymo 和 MOTS 四個(gè)具挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了嚴(yán)苛的測試。

1. 性能全方位領(lǐng)先

在 Cityscapes-VPS 驗(yàn)證集上，VideoCUPS 表現(xiàn)：

STQ 指標(biāo)（分割與跟蹤質(zhì)量，Segmentation and Tracking Quality）達(dá)到了 22.2%。
在關(guān)聯(lián)質(zhì)量（AQ）和分割質(zhì)量（SQ）上均大幅領(lǐng)先于現(xiàn)有的無監(jiān)督基線。

通過消融實(shí)驗(yàn)（下表）可以發(fā)現(xiàn)，時(shí)序跟蹤和語義平滑對最終性能的提升貢獻(xiàn)巨大，STQ 從 9.3% 一路飆升至 12.1%。

2. 強(qiáng)大的跨域泛化能力

一個(gè)優(yōu)秀的無監(jiān)督模型不應(yīng)該只在訓(xùn)練集上跑得好。實(shí)驗(yàn)顯示，VideoCUPS 在 KITTI-STEP 和 Waymo 等數(shù)據(jù)集上的泛化表現(xiàn)同樣穩(wěn)健，STQ 指標(biāo)均優(yōu)于所有對比基線。

從可視化結(jié)果來看，VideoCUPS 預(yù)測的掩碼邊緣更加平滑，對復(fù)雜背景下的行人識別也更加準(zhǔn)確，甚至能處理一定程度的局部遮擋。

3. 標(biāo)簽效率：10% 標(biāo)注即可達(dá)到隨機(jī)初始化全量標(biāo)注的效果

這可能是最令工業(yè)界興奮的一點(diǎn)。研究發(fā)現(xiàn)，如果將 VideoCUPS 作為預(yù)訓(xùn)練模型，僅使用 10% 的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)，其性能（STQ 32.5%）就能遠(yuǎn)超直接從 DINO 初始化微調(diào)的效果。這意味著在實(shí)際應(yīng)用中，我們可以極大地減少人工標(biāo)注的工作量，實(shí)現(xiàn)“事半功倍”。