0
| 本文作者: 陳淑瑜 | 2026-06-01 15:41 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“AI上分搭子
原文鏈接:https://mp.weixin.qq.com/s/6VviwXMsnFYLQHkVKMUZ3w
LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點:
視覺 foundation model 很強,但很多輸出仍然是 patch-level feature。
做分類、檢索,patch feature 很夠用。
但做 video object segmentation、surface normal、semantic segmentation,就會卡在更細的地方:
邊界、幾何、跨幀一致性。
LILA 的辦法是從未標注視頻里學(xué) pixel-level feature。
它不需要人工 mask。
也不要求推理時輸入視頻。
訓(xùn)練時,它借用 off-the-shelf 模型給出的 depth、optical flow,再加上 self-distillation cue。
核心機制叫 linear in-context learning。
簡單說:
在一幀上學(xué)到的“從特征讀出 cue 的線性規(guī)則”,換到相鄰幀也應(yīng)該成立。
先看幾組數(shù)字:
DINOv2、DINOv3 這類視覺 foundation model 已經(jīng)很強。
它們的特征里有語義,也有不少幾何信息。
問題在于,很多 encoder 的輸出仍然是 patch grid。
一個 patch 里有很多像素。
當(dāng)任務(wù)需要細邊界、局部幾何、跨幀對應(yīng)時,patch-level feature 就有點粗。
當(dāng)然,也可以把輸入圖像放大,或者用后處理方法上采樣 feature。
但這會帶來兩個麻煩:
LILA 的目標更直接:
讓模型天然輸出每個像素一個 feature。
而且這個 feature 不只是“看起來更細”。
它還要帶有三類信息:
視頻在這里就派上用場了。
視頻天然有運動,也隱含 3D 幾何。
如果能把這些線索轉(zhuǎn)成訓(xùn)練信號,就有機會補上 image-only pretraining 缺少的部分。

LILA 用了 depth 和 optical flow。
但它并不是簡單訓(xùn)練模型去預(yù)測 depth 和 flow。
這點要先說清楚。
因為這些 cue 本身有噪聲。
off-the-shelf depth / flow 模型在很多視頻上能用,但不可能每個像素都準。
如果直接把 noisy cue 當(dāng)答案蒸餾,模型很容易連噪聲一起學(xué)進去。
LILA 換了一個問法:
如果一幀里的 feature 真的學(xué)到了穩(wěn)定結(jié)構(gòu),那么從這幀 feature 到 cue map 的線性映射,換到相鄰幀也應(yīng)該還能用。
這就是 linear in-context learning。
它學(xué)的不是 depth 或 flow 本身。
它學(xué)的是一種 pixel feature:
同一個線性讀出器,在相鄰幀里也能解釋它。
約束很輕,但視頻里的時間一致性被用進來了。

LILA 從一個預(yù)訓(xùn)練 ViT 出發(fā),比如 DINOv2。
encoder 凍住。
只訓(xùn)練一個 DPT decoder。
這個 decoder 通過 skip connections,把 patch-level token 上采樣成 pixel-level feature map。
訓(xùn)練時,每次取一對相鄰幀:
模型分別輸出:
監(jiān)督信號來自三類 cue:
cue map 的構(gòu)造可以寫成:
這里的 和 是對應(yīng) crop。
是 refine 后的 encoder feature, 是 depth, 是 optical flow。
接著,在 context frame 上求一個線性映射:
然后要求同一個 也能解釋 query frame:

換個更直觀的說法:
context frame 先給出一個“小考題”:
這個 feature 里能不能線性讀出 depth、motion 和 encoder cue?
query frame 接著驗證:
同一套讀出規(guī)則,換一幀還成立嗎?
如果成立,說明 feature 里學(xué)到的不是單幀噪聲,而是更穩(wěn)定的時空結(jié)構(gòu)。
主結(jié)果覆蓋三個方向:

在 DINOv2-S14 上:
| 68.6 | 73.9 |
LILA 的優(yōu)勢不只是 linear probe。
local k-NN 也明顯提高。
這說明它不只是讓類別更容易線性讀出來,也讓跨幀像素匹配更穩(wěn)。
DINOv2-B14 上,LILA 也超過 FlowFeat:
| 70.4 | 74.2 |

Table 2 說明,LILA 并不是只為 VOS 調(diào)出來的。
在 surface normal estimation 上,RMSE 越低越好:
| 25.71 |
COCO-Stuff 上,mIoU 越高越好:
| 62.4 |
DINOv2-L14 + Kinetics 這一行也值得看。
LILA 的 COCO-Stuff mIoU 到 63.3。
這說明擴大視頻數(shù)據(jù)后,語義表征還能繼續(xù)漲。

Table 3 補了兩個測試。
ADE20K 上:
| 45.1 | |
| 47.5 |
zero-shot COCO-Stuff 上,DINOv2-B14 的 harmonic mIoU:
這說明 LILA 學(xué)到的 dense feature,對 unseen classes 也有幫助。

Table 4 看 cue modality。
只用 self-distillation 時,VOS local k-NN J&F 是 68.6。
加入 depth 或 flow 后都會漲。
三種 cue 一起用,local k-NN J&F 到 73.9。
這說明 depth、motion、encoder feature 是互補的。

Table 5 更關(guān)鍵。
它比較了 LILA 和直接預(yù)測外部 cue 的 ERM distillation。
| 68.6 / 73.9 | 28.53 | 59.6 |
兩者用的是類似 cue。
差別在于:ERM 直接學(xué) noisy cue,LILA 用跨幀線性一致性過濾噪聲。
這個差距說明,linear in-context learning 本身不是裝飾。它確實在起作用。
其他組件也有貢獻:

Figure 7 看 temporal gap。
太小,任務(wù)太容易,學(xué)到的表征反而弱。
變大后,cue predictability 更難,但精度是平滑下降。
這說明 LILA 確實在利用視頻里的時間間隔,而不是只做單幀蒸餾。

Figure 5 適合講兩個點:

Figure 6 值得放在“注意點”附近。
它有兩個信息:
這張圖也能提醒讀者:別把方法理解成“哪里都無腦好”。
LILA 強,但它確實依賴 depth / flow cue 的適用范圍。
LILA 的信息可以壓成一句話:
未標注視頻里的 depth 和 motion,不只是訓(xùn)練目標,也可以變成 pixel-level representation learning 的橋。
它沒有推翻 DINOv2 這類大 encoder。
更像是給它們補了一個 dense decoder。
encoder 負責(zé)強語義。
decoder 負責(zé)把語義、幾何和時間一致性落到每個像素。
這條路線的好處是很實用:
訓(xùn)練時用視頻。
推理時只要單張圖。
不需要人工 mask。
結(jié)果也不是只在一個 benchmark 上變好,而是在 VOS、surface normal、semantic segmentation 上一起提升。
代碼 / 項目頁:
https://github.com/google-research/google-research/tree/master/lilahttps://lila-pixels.github.io項目頁和 GitHub 已放出代碼與 pretrained checkpoints。
我覺得這篇最值得看的地方,是它很清楚地補了 foundation model 的一個短板。
大 encoder 已經(jīng)有強語義。
但 dense tasks 需要的是每個像素都可靠。
LILA 沒有強行重訓(xùn)整個 foundation model,而是凍結(jié) encoder、訓(xùn)練 decoder,用視頻里的 depth / flow cue 把 pixel detail 補上。
這個選擇很克制,也很工程。
LILA 依賴 off-the-shelf depth 和 optical flow。
如果這些 cue 在域外場景里不可靠,feature 也可能受影響。
Figure 6 里的 aerial image 就是一個提醒。
另外,很多結(jié)果是 probing 設(shè)置。
它證明了 representation 更好,但真正接到復(fù)雜下游系統(tǒng)時,還要看 task head、訓(xùn)練數(shù)據(jù)和部署場景。
第一個方向,是接更多 backbone。
附錄 Table 6 已經(jīng)顯示,MAE-B16、DINOv2-Reg、DINOv3 上都能有提升,只是幅度不同。
第二個方向,是引入更多 cue。
比如更強的 3D cue、object permanence、interaction signal,甚至來自機器人交互的視頻反饋。
第三個方向,是把 LILA 這種 dense decoder 變成視覺 foundation model 的標準配件。
本專題其他文章