• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”

    本文作者: 陳淑瑜   2026-06-11 13:51 專題:CVPR 計算機視覺與模式識別會議
    導語:很多大規模 VLM 并非沒有細粒度感知潛力,而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征,掩蓋了模型原有的空間感知能力。

    來源:公眾號“我愛計算機視覺”

    原文鏈接:https://mp.weixin.qq.com/s/R7Pi6hgPWAXKJcNmEuJveA

    近年來,視覺語言模型(Vision-Language Models, VLM)在圖文理解、零樣本識別和開放詞匯感知上表現越來越強。隨著模型參數規模和圖文預訓練數據不斷增大,很多人自然會期待:這些大規模預訓練視覺編碼器也應該具備更強的細粒度感知能力。但在開放詞匯語義分割、深度估計等密集預測任務(dense prediction tasks)中,許多模型的表現卻常常不如預期。這是否意味著這些視覺編碼器天然不擅長細粒度空間感知?

    CVPR 2026 工作 UniRefiner 給出了一個不同的答案:很多大規模 VLM 并非沒有細粒度感知潛力,而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征,掩蓋了模型原有的空間感知能力。換句話說,問題不一定是“模型不會看細節”,而可能是:ViT 輸出的 feature map 太“臟”了。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    • 論文:https://arxiv.org/abs/2605.19622
    • 項目主頁:https://congpeiqiu.github.io/UniRefiner/
    • 代碼 (已開源):https://github.com/CongpeiQiu/UniRefiner
    • 機構:西安交通大學、中國科學院大學、哈爾濱工業大學(深圳)、深圳河套學院
    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    SigLIP2-So400M and EVA-CLIP-8B noisy feature maps and UniRefiner refinement dynamics

    圖 1:SigLIP2-So400M 和 EVA-CLIP-8B 的 PCA feature-map dynamics。左側為原圖,中間為原始模型的 noisy feature map,右側展示 UniRefiner refinement 過程中空間結構逐漸變干凈的動態變化。

    高范數 token 只是冰山一角

    ViT 中的 feature artifacts 并不是一個全新問題。此前 Vision Transformers Need Registers 已經從 high-norm outlier 的角度指出,ViT feature map 中會出現高范數異常 tokens,而 register tokens 可以緩解這類問題。但 UniRefiner 進一步指出:高范數 tokens 只是最顯眼的一小部分。

    對于細粒度感知任務來說,僅用范數異常來定義 artifact 并不充分。一個 token 即使范數正常,甚至包含很強的語義信息,只要它不再對應自身所在的空間位置,就會破壞下游任務所需要的細粒度信息。因此,UniRefiner 更關注的是它是否仍然保留 location-aligned semantics,也就是:

    每個 visual token 是否仍然忠實表達自己所在空間位置的語義。

    基于這一判據,UniRefiner 將偽特征歸納為三類典型形式:

    • Fixed Pattern:這類 tokens 在不同圖像中呈現高度相似的固定模式,更多反映模型內部的非語義偏置,而不是當前圖像局部區域的內容。
    • Global Proxy:這類 tokens 不再主要編碼自身位置的局部證據,而是承載更全局的場景或圖像級語義,導致局部 token 退化為全局信息的代理。
    • Attention Hijackee:這類 tokens 的局部語義受到 attention 信息流主導,被更強的前景或鄰近語義覆蓋,從而逐漸失去自身空間位置對應的表征。

    這些模式來源不同,但共同導致一個結果:

    feature map 不再是一張可靠的空間畫布。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    Fixed Pattern, Global Proxy, and Attention Hijackee tokens

    圖 2:UniRefiner 將破壞 location-aligned semantics 的偽特征歸納為 Fixed Pattern、Global Proxy 和 Attention Hijackee 三類。高范數 tokens 只是其中最容易被觀察到的一小部分。

    UniRefiner:讓 register tokens 顯式承接偽特征

    UniRefiner 的思路很直接:

    image tokens 應該保留正常空間語義,register tokens 應該承接偽特征。

    已有的 register 類方法更多依賴模型在長時間預訓練中自然學會這種分工。UniRefiner 則直接給出顯式優化壓力:先識別哪些 tokens 仍然是正常的空間 tokens,哪些 tokens 是污染 feature map 的偽特征;再通過 contrastive register 目標進行特征分流。

    可以簡單理解為:

    image tokens    → 對齊正常、位置一致的視覺 token
    register tokens → 吸收污染 feature map 的偽特征信號

    同時,對比學習目標進一步拉開 image tokens 和 register tokens 的表征空間,強化兩者分工。這樣,原本混疊在圖像區域的偽特征被推向 register tokens,而 image tokens 則被恢復為編碼對應圖像區域信息的空間表征。

    這也是 UniRefiner 的關鍵:它不是重新訓練一個大模型,也不是等待 register tokens 的使用方式自然涌現,而是通過顯式優化目標,讓已有預訓練 ViT 快速學會“自清理”。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    Comparison of different register designs

    圖 3:不同 register 形式的比較。沒有 register tokens 時,偽特征容易繼續污染 image tokens;無約束 register tokens 在偽特征占比較高時難以形成穩定分工;UniRefiner 通過顯式 contrastive register 目標,讓 register tokens 主動承接偽特征信號。

    不只是指標提升:開放世界語義開始落到像素上

    UniRefiner 的一個重要特點是輕量。

    它不是重新訓練一個大模型,而是作為 post-hoc refinement 方法,對已有預訓練 ViT 做少量訓練。論文中僅使用約 5k images 和少數訓練 epoch,就能 refine EVA-CLIP-8B、InternViT-6B 等大規模模型。

    結果也非常直接:

    refined EVA-CLIP-8B 在 ADE20K 上達到 51.9% mIoU,相比原模型提升 +9.4 個百分點,并超過 DINOv2 的 49.1%。

    在視覺中心 dense prediction 任務上,UniRefiner 對不同類型的 ViT 都帶來穩定提升:不僅是 EVA-CLIP-8B,DINOv2、CLIP、InternViT 和 SigLIP2 也能在語義分割、深度估計等任務上受益。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    Vision-centric dense prediction results

    圖 4:視覺中心 dense prediction 結果。UniRefiner 在 ADE20K、CityScapes、Pascal VOC 和 NYUd 等任務上穩定提升多種 ViT backbone 的空間表征質量。

    在更依賴語言對齊能力的 zero-shot semantic segmentation 中,這種收益同樣明顯。尤其是 EVA-CLIP-8B,經過 UniRefiner 后在多個 zero-shot 分割設置下顯著提升,最高接近 +22 個百分點

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    Vision-language zero-shot dense prediction results

    圖 5:zero-shot semantic segmentation 結果。UniRefiner 在保留視覺語言模型開放詞匯能力的同時,讓 dense feature map 更適合定位語義區域。

    但更有意思的是,這種提升并不只體現在幾個分割指標上。

    許多大規模 VLM 視覺編碼器在海量圖文預訓練中已經沉淀了豐富的開放詞匯語義和視覺概念知識。但在原始 feature map 中,這些知識往往更像是圖像級語義,并不總能穩定落到對應的局部空間位置上。對于 dense prediction tasks 來說,這正是關鍵瓶頸:模型知道“這是什么”,并不等于每個 token 都知道“它在哪里”。

    UniRefiner 的作用,正是清理視覺編碼器 feature map 中的偽特征,讓圖文預訓練中已有的開放世界語義更好地回到局部空間位置上。因此,在一些開放場景中,我們可以看到更有意思的現象:經過 refinement 后,模型不僅在 ADE20K 等標準數據集上取得更高 mIoU,也能定位復雜城市場景中的特定建筑、特定角色形象,以及遙感圖像中的細粒度目標。

    UniRefiner 并不是給視覺編碼器灌入新的知識,而是讓圖文預訓練中已有的開放世界語義,重新找到它在圖像中的位置。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    Vision-language zero-shot qualitative visualization

    圖 6:需要世界知識的 vision-language zero-shot 可視化。圖中展示細粒度 visual representations 與 text prompt representations 之間的相似度熱力圖,用于觀察開放詞匯語義能否被定位到對應的空間區域。

    從“臟特征圖”到“干凈空間畫布”

    UniRefiner 的可視化結果也很直觀。

    在原始大規模 ViT 中,某些 tokens 不再對應真實圖像結構:背景區域可能出現固定模式,局部區域可能變成全局語義代理,前景強語義也可能通過 attention 擴散到周圍 tokens。

    經過 UniRefiner refinement 后,image tokens 被重新拉回正常空間語義,register tokens 承接偽特征信號,feature map 變得更加干凈,空間結構也更加清晰。這不是簡單地“平滑”特征,而是重新分配 token 的職責:

    image tokens    → 負責可靠的空間表征
    register tokens → 負責承接偽特征
    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”
    PCA dynamics across six ViT foundation models

    圖 7:不同 ViT foundation models 的 PCA feature-map dynamics。每個模型左側為原始 vanilla feature map,右側為 UniRefiner refinement 過程中的動態變化;可以看到 UniRefiner 在不同架構和尺度的 ViT 上都能逐步恢復更清晰的空間結構。

    寫在最后

    UniRefiner 的意義不只是提升幾個 dense prediction 指標,而是提醒我們重新思考一個問題:

    VLM 視覺編碼器的細粒度能力弱,究竟是能力本身不足,還是特征圖中的偽特征遮住了它?

    過去,我們可能低估了大規模 VLM 視覺編碼器的細粒度潛力。UniRefiner 通過系統分析高范數 token 之外更廣泛的偽特征,并用顯式 contrastive register 目標將其分流,說明已有多模態視覺基座中仍有大量可釋放的空間感知潛力。

    視覺語言 ViT 的細粒度能力被低估了嗎?CVPR 2026 UniRefiner:也許只是特征圖太“臟”

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 久久精品国产亚洲一区二区| 青青草原精品99久久精品66| 四虎库影成人在线播放| 少妇高潮太爽了在线视频| wwwwwwww在线观看久久| 中文字幕不卡在线播放| 亚洲中文字幕在线看| 国产精品深夜福利在线观看| 熟女爱V| 亚州性无码不卡免费视频| 免费在线观看污视频| 99精品众筹模特在线视频| 九九热在线免费视频观看| 久久影音先锋资源站| 国产AV抽搐| 国产性生大片免费观看性欧美| 《特殊的精油按摩》3| 深田えいみ禁欲后被隔壁人妻| 天天插天天爽| 美女大bxxxxn内射| 激情欧美日韩一区二区| 碰碰免费视频| 精品不卡一区二区三区| 少妇被粗大的猛烈进出69影院一| 微拍福利一区二区三区| 欧美?日本?国产| 国产欧色美视频综合二区| 精品午夜福利在线视在亚洲| 国产精品第一页中文字幕| 丁香婷婷在线观看| 亚洲欧美色欲天天| 7m精品福利视频导航| 欧亚无码av一区二区| 日韩精品一区二区三区视频网| 欧美精品一区二区三区在线| 亚洲最大的熟女水蜜桃AV网站| 亚洲av激情一区二区三区| 亚洲AV一卡| 国产97在线 | 日韩| 中文无码乱人伦中文视频播放| 国产精品av一区二区三区不卡蜜|