0
| 本文作者: 陳淑瑜 | 2026-06-11 13:51 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“我愛計算機視覺”
原文鏈接:https://mp.weixin.qq.com/s/R7Pi6hgPWAXKJcNmEuJveA
近年來,視覺語言模型(Vision-Language Models, VLM)在圖文理解、零樣本識別和開放詞匯感知上表現越來越強。隨著模型參數規模和圖文預訓練數據不斷增大,很多人自然會期待:這些大規模預訓練視覺編碼器也應該具備更強的細粒度感知能力。但在開放詞匯語義分割、深度估計等密集預測任務(dense prediction tasks)中,許多模型的表現卻常常不如預期。這是否意味著這些視覺編碼器天然不擅長細粒度空間感知?
CVPR 2026 工作 UniRefiner 給出了一個不同的答案:很多大規模 VLM 并非沒有細粒度感知潛力,而是其視覺編碼器輸出的 feature map 中存在高比例、模式復雜的偽特征,掩蓋了模型原有的空間感知能力。換句話說,問題不一定是“模型不會看細節”,而可能是:ViT 輸出的 feature map 太“臟”了。


圖 1:SigLIP2-So400M 和 EVA-CLIP-8B 的 PCA feature-map dynamics。左側為原圖,中間為原始模型的 noisy feature map,右側展示 UniRefiner refinement 過程中空間結構逐漸變干凈的動態變化。
ViT 中的 feature artifacts 并不是一個全新問題。此前 Vision Transformers Need Registers 已經從 high-norm outlier 的角度指出,ViT feature map 中會出現高范數異常 tokens,而 register tokens 可以緩解這類問題。但 UniRefiner 進一步指出:高范數 tokens 只是最顯眼的一小部分。
對于細粒度感知任務來說,僅用范數異常來定義 artifact 并不充分。一個 token 即使范數正常,甚至包含很強的語義信息,只要它不再對應自身所在的空間位置,就會破壞下游任務所需要的細粒度信息。因此,UniRefiner 更關注的是它是否仍然保留 location-aligned semantics,也就是:
每個 visual token 是否仍然忠實表達自己所在空間位置的語義。
基于這一判據,UniRefiner 將偽特征歸納為三類典型形式:
這些模式來源不同,但共同導致一個結果:
feature map 不再是一張可靠的空間畫布。

圖 2:UniRefiner 將破壞 location-aligned semantics 的偽特征歸納為 Fixed Pattern、Global Proxy 和 Attention Hijackee 三類。高范數 tokens 只是其中最容易被觀察到的一小部分。
UniRefiner 的思路很直接:
image tokens 應該保留正常空間語義,register tokens 應該承接偽特征。
已有的 register 類方法更多依賴模型在長時間預訓練中自然學會這種分工。UniRefiner 則直接給出顯式優化壓力:先識別哪些 tokens 仍然是正常的空間 tokens,哪些 tokens 是污染 feature map 的偽特征;再通過 contrastive register 目標進行特征分流。
可以簡單理解為:
image tokens → 對齊正常、位置一致的視覺 token
register tokens → 吸收污染 feature map 的偽特征信號
同時,對比學習目標進一步拉開 image tokens 和 register tokens 的表征空間,強化兩者分工。這樣,原本混疊在圖像區域的偽特征被推向 register tokens,而 image tokens 則被恢復為編碼對應圖像區域信息的空間表征。
這也是 UniRefiner 的關鍵:它不是重新訓練一個大模型,也不是等待 register tokens 的使用方式自然涌現,而是通過顯式優化目標,讓已有預訓練 ViT 快速學會“自清理”。

圖 3:不同 register 形式的比較。沒有 register tokens 時,偽特征容易繼續污染 image tokens;無約束 register tokens 在偽特征占比較高時難以形成穩定分工;UniRefiner 通過顯式 contrastive register 目標,讓 register tokens 主動承接偽特征信號。
UniRefiner 的一個重要特點是輕量。
它不是重新訓練一個大模型,而是作為 post-hoc refinement 方法,對已有預訓練 ViT 做少量訓練。論文中僅使用約 5k images 和少數訓練 epoch,就能 refine EVA-CLIP-8B、InternViT-6B 等大規模模型。
結果也非常直接:
refined EVA-CLIP-8B 在 ADE20K 上達到 51.9% mIoU,相比原模型提升 +9.4 個百分點,并超過 DINOv2 的 49.1%。
在視覺中心 dense prediction 任務上,UniRefiner 對不同類型的 ViT 都帶來穩定提升:不僅是 EVA-CLIP-8B,DINOv2、CLIP、InternViT 和 SigLIP2 也能在語義分割、深度估計等任務上受益。

圖 4:視覺中心 dense prediction 結果。UniRefiner 在 ADE20K、CityScapes、Pascal VOC 和 NYUd 等任務上穩定提升多種 ViT backbone 的空間表征質量。
在更依賴語言對齊能力的 zero-shot semantic segmentation 中,這種收益同樣明顯。尤其是 EVA-CLIP-8B,經過 UniRefiner 后在多個 zero-shot 分割設置下顯著提升,最高接近 +22 個百分點。

圖 5:zero-shot semantic segmentation 結果。UniRefiner 在保留視覺語言模型開放詞匯能力的同時,讓 dense feature map 更適合定位語義區域。
但更有意思的是,這種提升并不只體現在幾個分割指標上。
許多大規模 VLM 視覺編碼器在海量圖文預訓練中已經沉淀了豐富的開放詞匯語義和視覺概念知識。但在原始 feature map 中,這些知識往往更像是圖像級語義,并不總能穩定落到對應的局部空間位置上。對于 dense prediction tasks 來說,這正是關鍵瓶頸:模型知道“這是什么”,并不等于每個 token 都知道“它在哪里”。
UniRefiner 的作用,正是清理視覺編碼器 feature map 中的偽特征,讓圖文預訓練中已有的開放世界語義更好地回到局部空間位置上。因此,在一些開放場景中,我們可以看到更有意思的現象:經過 refinement 后,模型不僅在 ADE20K 等標準數據集上取得更高 mIoU,也能定位復雜城市場景中的特定建筑、特定角色形象,以及遙感圖像中的細粒度目標。
UniRefiner 并不是給視覺編碼器灌入新的知識,而是讓圖文預訓練中已有的開放世界語義,重新找到它在圖像中的位置。

圖 6:需要世界知識的 vision-language zero-shot 可視化。圖中展示細粒度 visual representations 與 text prompt representations 之間的相似度熱力圖,用于觀察開放詞匯語義能否被定位到對應的空間區域。
UniRefiner 的可視化結果也很直觀。
在原始大規模 ViT 中,某些 tokens 不再對應真實圖像結構:背景區域可能出現固定模式,局部區域可能變成全局語義代理,前景強語義也可能通過 attention 擴散到周圍 tokens。
經過 UniRefiner refinement 后,image tokens 被重新拉回正常空間語義,register tokens 承接偽特征信號,feature map 變得更加干凈,空間結構也更加清晰。這不是簡單地“平滑”特征,而是重新分配 token 的職責:
image tokens → 負責可靠的空間表征
register tokens → 負責承接偽特征

圖 7:不同 ViT foundation models 的 PCA feature-map dynamics。每個模型左側為原始 vanilla feature map,右側為 UniRefiner refinement 過程中的動態變化;可以看到 UniRefiner 在不同架構和尺度的 ViT 上都能逐步恢復更清晰的空間結構。
UniRefiner 的意義不只是提升幾個 dense prediction 指標,而是提醒我們重新思考一個問題:
VLM 視覺編碼器的細粒度能力弱,究竟是能力本身不足,還是特征圖中的偽特征遮住了它?
過去,我們可能低估了大規模 VLM 視覺編碼器的細粒度潛力。UniRefiner 通過系統分析高范數 token 之外更廣泛的偽特征,并用顯式 contrastive register 目標將其分流,說明已有多模態視覺基座中仍有大量可釋放的空間感知潛力。
本專題其他文章