CVPR 2026 Oral｜Google × TUM：LILA 想讓每個像素都有自己的時空特征

本文作者：陳淑瑜

2026-06-01 15:41

導(dǎo)語：LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點：視覺 foundation model 很強，但很多輸出仍然是 patch-level feature。

來源：公眾號“AI上分搭子
原文鏈接：https://mp.weixin.qq.com/s/6VviwXMsnFYLQHkVKMUZ3w
TL;DRLILA 盯的是一個很基礎(chǔ)、但常常被繞開的點：
視覺 foundation model 很強，但很多輸出仍然是 patch-level feature。
做分類、檢索，patch feature 很夠用。
但做 video object segmentation、surface normal、semantic segmentation，就會卡在更細的地方：
邊界、幾何、跨幀一致性。
LILA 的辦法是從未標注視頻里學(xué) pixel-level feature。
它不需要人工 mask。
也不要求推理時輸入視頻。
訓(xùn)練時，它借用 off-the-shelf 模型給出的 depth、optical flow，再加上 self-distillation cue。
核心機制叫 linear in-context learning。
簡單說：
在一幀上學(xué)到的“從特征讀出 cue 的線性規(guī)則”，換到相鄰幀也應(yīng)該成立。
先看幾組數(shù)字：
? DAVIS-2017 / DINOv2-S14：linear probing J&F 57.5 → 68.6。
? DAVIS-2017 / DINOv2-S14：local k-NN J&F 65.1 → 73.9。
? COCO-Stuff / DINOv2-B14：mIoU 58.5 → 62.4。
? ADE20K / DINOv2-B14：mIoU 45.5 → 47.5。
? Table 6：MAE-B16 的 VOS J&F 44.2 → 53.6。
01｜為什么還要學(xué) pixel-level featureDINOv2、DINOv3 這類視覺 foundation model 已經(jīng)很強。
它們的特征里有語義，也有不少幾何信息。
問題在于，很多 encoder 的輸出仍然是 patch grid。
一個 patch 里有很多像素。
當(dāng)任務(wù)需要細邊界、局部幾何、跨幀對應(yīng)時，patch-level feature 就有點粗。
當(dāng)然，也可以把輸入圖像放大，或者用后處理方法上采樣 feature。
但這會帶來兩個麻煩：
? 計算變貴。
? 訓(xùn)練和推理的輸入分辨率不一致。
LILA 的目標更直接：
讓模型天然輸出每個像素一個 feature。
而且這個 feature 不只是“看起來更細”。
它還要帶有三類信息：
? semantic
? geometric
? temporal consistency
視頻在這里就派上用場了。
視頻天然有運動，也隱含 3D 幾何。
如果能把這些線索轉(zhuǎn)成訓(xùn)練信號，就有機會補上 image-only pretraining 缺少的部分。
02｜Key Insight：不是直接蒸餾 depth / flow，而是學(xué)“能被穩(wěn)定讀出來”的特征LILA 用了 depth 和 optical flow。
但它并不是簡單訓(xùn)練模型去預(yù)測 depth 和 flow。
這點要先說清楚。
因為這些 cue 本身有噪聲。
off-the-shelf depth / flow 模型在很多視頻上能用，但不可能每個像素都準。
如果直接把 noisy cue 當(dāng)答案蒸餾，模型很容易連噪聲一起學(xué)進去。
LILA 換了一個問法：
如果一幀里的 feature 真的學(xué)到了穩(wěn)定結(jié)構(gòu)，那么從這幀 feature 到 cue map 的線性映射，換到相鄰幀也應(yīng)該還能用。
這就是 linear in-context learning。
它學(xué)的不是 depth 或 flow 本身。
它學(xué)的是一種 pixel feature：
同一個線性讀出器，在相鄰幀里也能解釋它。
約束很輕，但視頻里的時間一致性被用進來了。
03｜核心方法：LILA 怎么訓(xùn)練LILA 從一個預(yù)訓(xùn)練 ViT 出發(fā)，比如 DINOv2。
encoder 凍住。
只訓(xùn)練一個 DPT decoder。
這個 decoder 通過 skip connections，把 patch-level token 上采樣成 pixel-level feature map。
訓(xùn)練時，每次取一對相鄰幀：
? context frame：
? query frame：
模型分別輸出：
? context feature：
? query feature：
監(jiān)督信號來自三類 cue：
? PAMR refine 后的 encoder feature
? monocular depth
? optical flow
cue map 的構(gòu)造可以寫成：
這里的  和  是對應(yīng) crop。
 是 refine 后的 encoder feature， 是 depth， 是 optical flow。
接著，在 context frame 上求一個線性映射：
然后要求同一個  也能解釋 query frame：
換個更直觀的說法：
context frame 先給出一個“小考題”：
這個 feature 里能不能線性讀出 depth、motion 和 encoder cue？
query frame 接著驗證：
同一套讀出規(guī)則，換一幀還成立嗎？
如果成立，說明 feature 里學(xué)到的不是單幀噪聲，而是更穩(wěn)定的時空結(jié)構(gòu)。
04｜和相關(guān)方法比，LILA 提升在哪主結(jié)果覆蓋三個方向：
? video object segmentation
? surface normal estimation
? semantic segmentation
DAVIS-2017：VOS 上的提升最直觀在 DINOv2-S14 上：
方法Linear Probing J&FLocal k-NN J&F
DINOv2-S1457.565.1
+ FeatUp60.565.5
+ LoftUp63.066.0
+ FlowFeat65.867.6
+ LILA68.673.9
LILA 的優(yōu)勢不只是 linear probe。
local k-NN 也明顯提高。
這說明它不只是讓類別更容易線性讀出來，也讓跨幀像素匹配更穩(wěn)。
DINOv2-B14 上，LILA 也超過 FlowFeat：
方法Linear Probing J&FLocal k-NN J&F
FlowFeat65.769.0
LILA70.474.2
NYUv2 / COCO-Stuff：幾何和語義都受益Table 2 說明，LILA 并不是只為 VOS 調(diào)出來的。
在 surface normal estimation 上，RMSE 越低越好：
方法NYUv2 RMSE
DINOv2-B1426.56
FlowFeat26.28
LILA25.71
COCO-Stuff 上，mIoU 越高越好：
方法COCO-Stuff mIoU
DINOv2-B1458.5
FlowFeat60.4
LILA62.4
DINOv2-L14 + Kinetics 這一行也值得看。
LILA 的 COCO-Stuff mIoU 到 63.3。
這說明擴大視頻數(shù)據(jù)后，語義表征還能繼續(xù)漲。
ADE20K 和 zero-shot COCO-StuffTable 3 補了兩個測試。
ADE20K 上：
方法mIoU
DINOv2-S1443.5
+ LILA45.1
DINOv2-B1445.5
+ LILA47.5
zero-shot COCO-Stuff 上，DINOv2-B14 的 harmonic mIoU：
這說明 LILA 學(xué)到的 dense feature，對 unseen classes 也有幫助。
05｜Ablation：哪些部分真的有用Table 4 看 cue modality。
只用 self-distillation 時，VOS local k-NN J&F 是 68.6。
加入 depth 或 flow 后都會漲。
三種 cue 一起用，local k-NN J&F 到 73.9。
這說明 depth、motion、encoder feature 是互補的。
Table 5 更關(guān)鍵。
它比較了 LILA 和直接預(yù)測外部 cue 的 ERM distillation。
方法VOS Linear / k-NN J&FNYUv2 RMSECOCO-Stuff mIoU
ERM distillation63.2 / 61.128.8658.4
LILA Full68.6 / 73.928.5359.6
兩者用的是類似 cue。
差別在于：ERM 直接學(xué) noisy cue，LILA 用跨幀線性一致性過濾噪聲。
這個差距說明，linear in-context learning 本身不是裝飾。它確實在起作用。
其他組件也有貢獻：
? 去掉 PAMR，VOS k-NN 從 73.9 到 71.9。
? 去掉 cropping，VOS k-NN 到 72.4。
? 去掉 temporal sampling，VOS k-NN 到 72.4。
? 去掉 edge loss，VOS k-NN 到 72.9。
Figure 7 看 temporal gap。
 太小，任務(wù)太容易，學(xué)到的表征反而弱。
 變大后，cue predictability 更難，但精度是平滑下降。
這說明 LILA 確實在利用視頻里的時間間隔，而不是只做單幀蒸餾。
06｜Qualitative AnalysisFigure 5 適合講兩個點：
? surface normal 里，家具、邊界、局部結(jié)構(gòu)更細。
? semantic segmentation 里，邊界和背景細節(jié)更清楚。
Figure 6 值得放在“注意點”附近。
它有兩個信息：
? 相比 ERM distillation，LILA 的 feature map 更銳利。
? 到域外圖像時，LILA 對 chest X-ray 還能給出合理表示，但 aerial image 會被陰影干擾。
這張圖也能提醒讀者：別把方法理解成“哪里都無腦好”。
LILA 強，但它確實依賴 depth / flow cue 的適用范圍。
07｜Takeaway MessageLILA 的信息可以壓成一句話：
未標注視頻里的 depth 和 motion，不只是訓(xùn)練目標，也可以變成 pixel-level representation learning 的橋。
它沒有推翻 DINOv2 這類大 encoder。
更像是給它們補了一個 dense decoder。
encoder 負責(zé)強語義。
decoder 負責(zé)把語義、幾何和時間一致性落到每個像素。
這條路線的好處是很實用：
訓(xùn)練時用視頻。
推理時只要單張圖。
不需要人工 mask。
結(jié)果也不是只在一個 benchmark 上變好，而是在 VOS、surface normal、semantic segmentation 上一起提升。
08｜代碼、注意點與 GPT-5.5 編輯點評代碼 / 項目頁：
? https://github.com/google-research/google-research/tree/master/lila
? https://lila-pixels.github.io
項目頁和 GitHub 已放出代碼與 pretrained checkpoints。
GPT-5.5 尾注為什么值得看我覺得這篇最值得看的地方，是它很清楚地補了 foundation model 的一個短板。
大 encoder 已經(jīng)有強語義。
但 dense tasks 需要的是每個像素都可靠。
LILA 沒有強行重訓(xùn)整個 foundation model，而是凍結(jié) encoder、訓(xùn)練 decoder，用視頻里的 depth / flow cue 把 pixel detail 補上。
這個選擇很克制，也很工程。
讀的時候要保留的判斷LILA 依賴 off-the-shelf depth 和 optical flow。
如果這些 cue 在域外場景里不可靠，feature 也可能受影響。
Figure 6 里的 aerial image 就是一個提醒。
另外，很多結(jié)果是 probing 設(shè)置。
它證明了 representation 更好，但真正接到復(fù)雜下游系統(tǒng)時，還要看 task head、訓(xùn)練數(shù)據(jù)和部署場景。
后續(xù)可以關(guān)注什么第一個方向，是接更多 backbone。
附錄 Table 6 已經(jīng)顯示，MAE-B16、DINOv2-Reg、DINOv3 上都能有提升，只是幅度不同。
第二個方向，是引入更多 cue。
比如更強的 3D cue、object permanence、interaction signal，甚至來自機器人交互的視頻反饋。
第三個方向，是把 LILA 這種 dense decoder 變成視覺 foundation model 的標準配件。
Reference? Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. arXiv 2023.
? Siméoni et al. DINOv3. arXiv 2025.
? Fu et al. FeatUp: A Model-Agnostic Framework for Features at Any Resolution. ICLR 2024.
? Huang et al. LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models. ICCV 2025.
? Araslanov et al. FlowFeat: Pixel-Dense Embedding of Motion Profiles. NeurIPS 2025.
? Xu et al. YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark. arXiv 2018.
? Caesar et al. COCO-Stuff: Thing and Stuff Classes in Context. CVPR 2018.