• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

    本文作者: 陳淑瑜   2026-06-01 15:41 專題:CVPR 計算機視覺與模式識別會議
    導(dǎo)語:LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點:視覺 foundation model 很強,但很多輸出仍然是 patch-level feature。

     


    來源:公眾號“AI上分搭子

    原文鏈接:https://mp.weixin.qq.com/s/6VviwXMsnFYLQHkVKMUZ3w

      TL;DR

      LILA 盯的是一個很基礎(chǔ)、但常常被繞開的點:

      視覺 foundation model 很強,但很多輸出仍然是 patch-level feature。

      做分類、檢索,patch feature 很夠用。

      但做 video object segmentation、surface normal、semantic segmentation,就會卡在更細的地方:

      邊界、幾何、跨幀一致性。

      LILA 的辦法是從未標注視頻里學(xué) pixel-level feature。

      它不需要人工 mask。

      也不要求推理時輸入視頻。

      訓(xùn)練時,它借用 off-the-shelf 模型給出的 depth、optical flow,再加上 self-distillation cue。

      核心機制叫 linear in-context learning

      簡單說:

      在一幀上學(xué)到的“從特征讀出 cue 的線性規(guī)則”,換到相鄰幀也應(yīng)該成立。

      先看幾組數(shù)字:

      • ? DAVIS-2017 / DINOv2-S14:linear probing J&F 57.5 → 68.6。
      • ? DAVIS-2017 / DINOv2-S14:local k-NN J&F 65.1 → 73.9
      • ? COCO-Stuff / DINOv2-B14:mIoU 58.5 → 62.4。
      • ? ADE20K / DINOv2-B14:mIoU 45.5 → 47.5。
      • ? Table 6:MAE-B16 的 VOS J&F 44.2 → 53.6。

      01|為什么還要學(xué) pixel-level feature

      DINOv2、DINOv3 這類視覺 foundation model 已經(jīng)很強。

      它們的特征里有語義,也有不少幾何信息。

      問題在于,很多 encoder 的輸出仍然是 patch grid。

      一個 patch 里有很多像素。

      當(dāng)任務(wù)需要細邊界、局部幾何、跨幀對應(yīng)時,patch-level feature 就有點粗。

      當(dāng)然,也可以把輸入圖像放大,或者用后處理方法上采樣 feature。

      但這會帶來兩個麻煩:

      • ? 計算變貴。
      • ? 訓(xùn)練和推理的輸入分辨率不一致。

      LILA 的目標更直接:

      讓模型天然輸出每個像素一個 feature。

      而且這個 feature 不只是“看起來更細”。

      它還要帶有三類信息:

      • ? semantic
      • ? geometric
      • ? temporal consistency

      視頻在這里就派上用場了。

      視頻天然有運動,也隱含 3D 幾何。

      如果能把這些線索轉(zhuǎn)成訓(xùn)練信號,就有機會補上 image-only pretraining 缺少的部分。


      02|Key Insight:不是直接蒸餾 depth / flow,而是學(xué)“能被穩(wěn)定讀出來”的特征

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      LILA 用了 depth 和 optical flow。

      但它并不是簡單訓(xùn)練模型去預(yù)測 depth 和 flow。

      這點要先說清楚。

      因為這些 cue 本身有噪聲。

      off-the-shelf depth / flow 模型在很多視頻上能用,但不可能每個像素都準。

      如果直接把 noisy cue 當(dāng)答案蒸餾,模型很容易連噪聲一起學(xué)進去。

      LILA 換了一個問法:

      如果一幀里的 feature 真的學(xué)到了穩(wěn)定結(jié)構(gòu),那么從這幀 feature 到 cue map 的線性映射,換到相鄰幀也應(yīng)該還能用。

      這就是 linear in-context learning

      它學(xué)的不是 depth 或 flow 本身。

      它學(xué)的是一種 pixel feature:

      同一個線性讀出器,在相鄰幀里也能解釋它。

      約束很輕,但視頻里的時間一致性被用進來了。


      03|核心方法:LILA 怎么訓(xùn)練

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      LILA 從一個預(yù)訓(xùn)練 ViT 出發(fā),比如 DINOv2。

      encoder 凍住。

      只訓(xùn)練一個 DPT decoder。

      這個 decoder 通過 skip connections,把 patch-level token 上采樣成 pixel-level feature map。

      訓(xùn)練時,每次取一對相鄰幀:

      • ? context frame:
      • ? query frame:

      模型分別輸出:

      • ? context feature:
      • ? query feature:

      監(jiān)督信號來自三類 cue:

      • ? PAMR refine 后的 encoder feature
      • ? monocular depth
      • ? optical flow

      cue map 的構(gòu)造可以寫成:

      這里的  和  是對應(yīng) crop。

       是 refine 后的 encoder feature, 是 depth, 是 optical flow。

      接著,在 context frame 上求一個線性映射:

      然后要求同一個  也能解釋 query frame:

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      換個更直觀的說法:

      context frame 先給出一個“小考題”:

      這個 feature 里能不能線性讀出 depth、motion 和 encoder cue?

      query frame 接著驗證:

      同一套讀出規(guī)則,換一幀還成立嗎?

      如果成立,說明 feature 里學(xué)到的不是單幀噪聲,而是更穩(wěn)定的時空結(jié)構(gòu)。


      04|和相關(guān)方法比,LILA 提升在哪

      主結(jié)果覆蓋三個方向:

      • ? video object segmentation
      • ? surface normal estimation
      • ? semantic segmentation

      DAVIS-2017:VOS 上的提升最直觀

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      在 DINOv2-S14 上:

      方法
      Linear Probing J&F
      Local k-NN J&F
      DINOv2-S14
      57.5
      65.1
      + FeatUp
      60.5
      65.5
      + LoftUp
      63.0
      66.0
      + FlowFeat
      65.8
      67.6
      + LILA
      68.673.9

      LILA 的優(yōu)勢不只是 linear probe。

      local k-NN 也明顯提高。

      這說明它不只是讓類別更容易線性讀出來,也讓跨幀像素匹配更穩(wěn)。

      DINOv2-B14 上,LILA 也超過 FlowFeat:

      方法
      Linear Probing J&F
      Local k-NN J&F
      FlowFeat
      65.7
      69.0
      LILA
      70.474.2

      NYUv2 / COCO-Stuff:幾何和語義都受益

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Table 2 說明,LILA 并不是只為 VOS 調(diào)出來的。

      在 surface normal estimation 上,RMSE 越低越好:

      方法
      NYUv2 RMSE
      DINOv2-B14
      26.56
      FlowFeat
      26.28
      LILA
      25.71

      COCO-Stuff 上,mIoU 越高越好:

      方法
      COCO-Stuff mIoU
      DINOv2-B14
      58.5
      FlowFeat
      60.4
      LILA
      62.4

      DINOv2-L14 + Kinetics 這一行也值得看。

      LILA 的 COCO-Stuff mIoU 到 63.3。

      這說明擴大視頻數(shù)據(jù)后,語義表征還能繼續(xù)漲。

      ADE20K 和 zero-shot COCO-Stuff

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Table 3 補了兩個測試。

      ADE20K 上:

      方法
      mIoU
      DINOv2-S14
      43.5
      + LILA
      45.1
      DINOv2-B14
      45.5
      + LILA
      47.5

      zero-shot COCO-Stuff 上,DINOv2-B14 的 harmonic mIoU:

      這說明 LILA 學(xué)到的 dense feature,對 unseen classes 也有幫助。


      05|Ablation:哪些部分真的有用

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Table 4 看 cue modality。

      只用 self-distillation 時,VOS local k-NN J&F 是 68.6。

      加入 depth 或 flow 后都會漲。

      三種 cue 一起用,local k-NN J&F 到 73.9。

      這說明 depth、motion、encoder feature 是互補的。

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Table 5 更關(guān)鍵。

      它比較了 LILA 和直接預(yù)測外部 cue 的 ERM distillation。

      方法
      VOS Linear / k-NN J&F
      NYUv2 RMSE
      COCO-Stuff mIoU
      ERM distillation
      63.2 / 61.1
      28.86
      58.4
      LILA Full
      68.6 / 73.928.5359.6

      兩者用的是類似 cue。

      差別在于:ERM 直接學(xué) noisy cue,LILA 用跨幀線性一致性過濾噪聲。

      這個差距說明,linear in-context learning 本身不是裝飾。它確實在起作用。

      其他組件也有貢獻:

      • ? 去掉 PAMR,VOS k-NN 從 73.9 到 71.9
      • ? 去掉 cropping,VOS k-NN 到 72.4。
      • ? 去掉 temporal sampling,VOS k-NN 到 72.4
      • ? 去掉 edge loss,VOS k-NN 到 72.9。
      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Figure 7 看 temporal gap。

       太小,任務(wù)太容易,學(xué)到的表征反而弱。

       變大后,cue predictability 更難,但精度是平滑下降。

      這說明 LILA 確實在利用視頻里的時間間隔,而不是只做單幀蒸餾。


      06|Qualitative Analysis

      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Figure 5 適合講兩個點:

      • ? surface normal 里,家具、邊界、局部結(jié)構(gòu)更細。
      • ? semantic segmentation 里,邊界和背景細節(jié)更清楚。
      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      Figure 6 值得放在“注意點”附近。

      它有兩個信息:

      • ? 相比 ERM distillation,LILA 的 feature map 更銳利。
      • ? 到域外圖像時,LILA 對 chest X-ray 還能給出合理表示,但 aerial image 會被陰影干擾。

      這張圖也能提醒讀者:別把方法理解成“哪里都無腦好”。

      LILA 強,但它確實依賴 depth / flow cue 的適用范圍。


      07|Takeaway Message

      LILA 的信息可以壓成一句話:

      未標注視頻里的 depth 和 motion,不只是訓(xùn)練目標,也可以變成 pixel-level representation learning 的橋。

      它沒有推翻 DINOv2 這類大 encoder。

      更像是給它們補了一個 dense decoder。

      encoder 負責(zé)強語義。

      decoder 負責(zé)把語義、幾何和時間一致性落到每個像素。

      這條路線的好處是很實用:

      訓(xùn)練時用視頻。

      推理時只要單張圖。

      不需要人工 mask。

      結(jié)果也不是只在一個 benchmark 上變好,而是在 VOS、surface normal、semantic segmentation 上一起提升。


      08|代碼、注意點與 GPT-5.5 編輯點評

      代碼 / 項目頁:

      • https://github.com/google-research/google-research/tree/master/lila
      • https://lila-pixels.github.io

      項目頁和 GitHub 已放出代碼與 pretrained checkpoints。


      GPT-5.5 尾注

      為什么值得看

      我覺得這篇最值得看的地方,是它很清楚地補了 foundation model 的一個短板。

      大 encoder 已經(jīng)有強語義。

      但 dense tasks 需要的是每個像素都可靠。

      LILA 沒有強行重訓(xùn)整個 foundation model,而是凍結(jié) encoder、訓(xùn)練 decoder,用視頻里的 depth / flow cue 把 pixel detail 補上。

      這個選擇很克制,也很工程。

      讀的時候要保留的判斷

      LILA 依賴 off-the-shelf depth 和 optical flow。

      如果這些 cue 在域外場景里不可靠,feature 也可能受影響。

      Figure 6 里的 aerial image 就是一個提醒。

      另外,很多結(jié)果是 probing 設(shè)置。

      它證明了 representation 更好,但真正接到復(fù)雜下游系統(tǒng)時,還要看 task head、訓(xùn)練數(shù)據(jù)和部署場景。

      后續(xù)可以關(guān)注什么

      第一個方向,是接更多 backbone。

      附錄 Table 6 已經(jīng)顯示,MAE-B16、DINOv2-Reg、DINOv3 上都能有提升,只是幅度不同。

      第二個方向,是引入更多 cue。

      比如更強的 3D cue、object permanence、interaction signal,甚至來自機器人交互的視頻反饋。

      第三個方向,是把 LILA 這種 dense decoder 變成視覺 foundation model 的標準配件。

      Reference

      • ? Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. arXiv 2023.
      • ? Siméoni et al. DINOv3. arXiv 2025.
      • ? Fu et al. FeatUp: A Model-Agnostic Framework for Features at Any Resolution. ICLR 2024.
      • ? Huang et al. LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models. ICCV 2025.
      • ? Araslanov et al. FlowFeat: Pixel-Dense Embedding of Motion Profiles. NeurIPS 2025.
      • ? Xu et al. YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark. arXiv 2018.
      • ? Caesar et al. COCO-Stuff: Thing and Stuff Classes in Context. CVPR 2018.

       


      CVPR 2026 Oral|Google × TUM:LILA 想讓每個像素都有自己的時空特征

      分享:
      相關(guān)文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 临夏县| 国产黄色三级三级看三级| 久久亚洲女同第一区综合| 欧美成a人片在线观看| 精品人妻一区二区三区四区视频不卡| 亚洲国产色播AV在线| 免费三级网| 极品少妇无套内射视频| 欧美和黑人xxxx猛交视频| 日韩人妻精品中文字幕专区| 欧美色资源站| 精品香蕉在线观看视频| 日韩不卡视频在线观看| 精品国产一区AV天美传媒| 亚洲欧美综合人成在线| 000000亚洲| 99久久精品免费看国产一区二区三区 | 日本一区二区国产在线| 亚洲男人第一无码av网站| 大香蕉一区| 久久精品人妻中文系列| 国内av潮喷大喷水系列无码| 日韩在线一区二区不卡视频| 久久久久久综合网天天| 人妻丝袜中文无码AV影音先锋专区| 女的被弄到高潮娇喘喷水视频| 69精品视频| 久久精品国产亚洲av麻豆小说 | 亚洲av粉嫩性色av| 大陆一级毛片免费播放| 午夜国产小视频| 超碰碰97| 酒店大战丝袜高跟鞋人妻| 美欧日韩aV在线| 久久天天躁狠狠躁夜夜AV浪潮| 久久99爰这里有精品国产| 亚洲国产精品久久久久秋霞 | 色婷婷色| 天天色伊人色| 在线看成年人毛片66| 青青草a国产免费观看|