0
| 本文作者: 陳淑瑜 | 2026-06-05 18:38 | 專題:CVPR 計(jì)算機(jī)視覺與模式識別會議 |
來源:公眾號“我愛計(jì)算機(jī)視覺”
原文鏈接:https://mp.weixin.qq.com/s/ZAI3_QVi_70Y4AJiGLuxLQ
在計(jì)算機(jī)視覺的世界里,視頻全景分割(Video Panoptic Segmentation, VPS)一直被視為一項(xiàng)“全能且昂貴”的任務(wù)。它不僅要求模型識別出視頻中的每一個(gè)像素屬于什么類別(語義分割),還要區(qū)分出不同的個(gè)體(實(shí)例分割),并且在時(shí)間軸上準(zhǔn)確地將它們關(guān)聯(lián)起來(目標(biāo)跟蹤)。
然而,高質(zhì)量的 VPS 標(biāo)注成本高得驚人。為了解決這一痛點(diǎn),來自慕尼黑工業(yè)大學(xué)、達(dá)姆施塔特工業(yè)大學(xué)、英偉達(dá)以及牛津大學(xué)等研究團(tuán)隊(duì)聯(lián)合推出了 VideoCUPS。它的核心魅力在于:完全不需要人類標(biāo)注,僅憑普通的單目視頻,就能“自學(xué)”成才,實(shí)現(xiàn)高質(zhì)量的視頻全景理解。


近年來,無監(jiān)督學(xué)習(xí)在圖像分割領(lǐng)域取得了長足進(jìn)步。比如之前的 U2Seg 或 CUPS,已經(jīng)能在不看標(biāo)簽的情況下把圖片里的車、人、樹分得有模有樣。但當(dāng)我們把目光轉(zhuǎn)向視頻時(shí),情況變得復(fù)雜了。
視頻多了時(shí)間維度,意味著模型不僅要分得準(zhǔn),還要跟得住。現(xiàn)有的無監(jiān)督方法大多盯著靜態(tài)圖像,或者只能處理簡單的、以單個(gè)物體為中心的視頻。面對復(fù)雜的真實(shí)駕駛場景(Scene-Centric),如何利用視頻自帶的運(yùn)動(Motion)和深度(Depth)線索來構(gòu)建時(shí)序一致的理解?這就是 VideoCUPS 想要回答的問題。

VideoCUPS 的核心邏輯分為兩步:第一步是生成高質(zhì)量的視頻全景偽標(biāo)簽;第二步是利用這些偽標(biāo)簽訓(xùn)練一個(gè)強(qiáng)大的 VPS 模型。
為了在沒有標(biāo)注的情況下識別物體,研究者們借鑒了格式塔心理學(xué)(Gestalt principles)中的“共同命運(yùn)”原則:即一起運(yùn)動的像素通常屬于同一個(gè)物體。

值得注意的是,相比于之前的 CUPS 依賴雙目(Stereo)相機(jī)提供的深度信息,VideoCUPS 僅需單目視頻即可完成上述過程。這種對硬件要求的“降級”,實(shí)際上是對算法魯棒性的巨大挑戰(zhàn)。

從上圖可以看到,VideoCUPS 生成的偽標(biāo)簽在處理非剛性運(yùn)動(如行人的肢體動作)時(shí)表現(xiàn)得更加出色,且跟蹤的生命周期更長。
有了偽標(biāo)簽,接下來的挑戰(zhàn)是如何訓(xùn)練模型。偽標(biāo)簽通常是稀疏的——它只能發(fā)現(xiàn)那些正在運(yùn)動的物體,卻容易漏掉路邊停著的靜止車輛。
為此,團(tuán)隊(duì)引入了 Video DropLoss。其數(shù)學(xué)表達(dá)式如下:
這個(gè)損失函數(shù)的設(shè)計(jì)只對那些與偽標(biāo)簽高度重合(IoU 超過閾值)的預(yù)測進(jìn)行強(qiáng)監(jiān)督,而給模型留出了“自由發(fā)揮”的空間。這樣,模型在訓(xùn)練過程中就能通過視覺特征的相似性,自動把那些靜止的、未被偽標(biāo)簽覆蓋的車輛也識別出來。
此外,研究者還設(shè)計(jì)了自增強(qiáng)視頻 Copy-Paste。模型會把自己預(yù)測得最自信的物體“摳”出來,隨機(jī)粘貼到其他視頻剪輯中。這種“自我博弈”的方式極大地提升了模型對小物體的檢測和跟蹤能力。
研究團(tuán)隊(duì)在 Cityscapes-VPS、KITTI-STEP、Waymo 和 MOTS 四個(gè)具挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了嚴(yán)苛的測試。
在 Cityscapes-VPS 驗(yàn)證集上,VideoCUPS 表現(xiàn):

通過消融實(shí)驗(yàn)(下表)可以發(fā)現(xiàn),時(shí)序跟蹤和語義平滑對最終性能的提升貢獻(xiàn)巨大,STQ 從 9.3% 一路飆升至 12.1%。

一個(gè)優(yōu)秀的無監(jiān)督模型不應(yīng)該只在訓(xùn)練集上跑得好。實(shí)驗(yàn)顯示,VideoCUPS 在 KITTI-STEP 和 Waymo 等數(shù)據(jù)集上的泛化表現(xiàn)同樣穩(wěn)健,STQ 指標(biāo)均優(yōu)于所有對比基線。

從可視化結(jié)果來看,VideoCUPS 預(yù)測的掩碼邊緣更加平滑,對復(fù)雜背景下的行人識別也更加準(zhǔn)確,甚至能處理一定程度的局部遮擋。

這可能是最令工業(yè)界興奮的一點(diǎn)。研究發(fā)現(xiàn),如果將 VideoCUPS 作為預(yù)訓(xùn)練模型,僅使用 10% 的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),其性能(STQ 32.5%)就能遠(yuǎn)超直接從 DINO 初始化微調(diào)的效果。這意味著在實(shí)際應(yīng)用中,我們可以極大地減少人工標(biāo)注的工作量,實(shí)現(xiàn)“事半功倍”。

VideoCUPS 的成功,本質(zhì)上是人類對“先驗(yàn)知識”的巧妙利用——我們告訴模型“運(yùn)動一致即物體”,模型便以此為支點(diǎn),撬動了復(fù)雜的視頻全景理解。
說實(shí)話,看到無監(jiān)督模型能把復(fù)雜的街景分得這么細(xì)致,確實(shí)讓人感嘆自監(jiān)督表征學(xué)習(xí)的潛力。如果你正苦于 VPS 標(biāo)注數(shù)據(jù)的匱乏,待 VideoCUPS 代碼開源后絕對值得一試。
本專題其他文章