0
| 本文作者: 陳淑瑜 | 2026-05-28 11:38 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“Al & Multimodal ”
原文鏈接:https://mp.weixin.qq.com/s/RUoVbXgdFbIeeDOcnYQqng?scene=1&click_id=148
作者 | Darlene

論文題目:
OddGridBench:揭示多模態大語言模型缺乏細粒度視覺差異敏感性
OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
會議/期刊:
CVPR 2026
作者:
Tengjin Weng、Wenhao Jiang、Jingyi Wang、Ming Li、Lin Ma、Zhong Ming等,來自深圳大學、清華大學深圳國際研究生院、美團等單位。
文章地址:
https://arxiv.org/abs/2603.09326
Github地址:

摘要
多模態大型語言模型(MLLMs)在廣泛的視覺語言任務中表現出了卓越的性能。然而,它們在低級視覺感知方面的能力,特別是對細微視覺差異的檢測能力,仍未得到充分探索,也缺乏系統的分析。
該論文提出OddGridBench,一個用于評估MLLMs視覺差異敏感性的可控基準。OddGridBench包含超過1400張網格圖像,其中單個元素在顏色、大小、旋轉或位置上與其余元素存在微小差異。
實驗表明,所有評估的MLLMs,包括開源系列(如Qwen3-VL和InternVL3.5,以及專有系統如Gemini-2.5-Pro和GPT-5)在視覺差異檢測方面的表現都遠低于人類水平。為進一步提升模型能力,作者提出OddGrid-GRPO,一個結合課程學習與距離感知獎勵的強化學習框架。通過逐步控制訓練樣本的難度,并將空間鄰近約束納入獎勵設計中,OddGridGRPO顯著增強了模型的精細視覺辨別能力。該論文希望OddGridBench和OddGrid-GRPO能夠為多模態智能中感知基礎的建立以及視覺差異敏感度的提升奠定基礎。

圖 1. 人類感知視覺差異敏感度的示意圖,展示了從難以察覺到能夠察覺的色彩、旋轉和尺寸方面的視覺差異的轉變過程。

主要貢獻
1. 提出了OddGridBench,一個可擴展且可控的基準測試工具,用于評估多語言語言模型在感知差異方面的能力。通過在參數化空間中生成基于網格的圖像,并持續控制顏色、大小、旋轉和位置等要素,OddGridBench能夠對模型在多個感知維度上的敏感性進行定量和系統的分析。
2. 對一系列最先進的開源和專有機器學習語言模型進行了全面的實驗,結果揭示了在所有模型類別中,細粒度感知識別方面存在一致且此前未被充分研究的故障模式。
3. 提出了OddGrid-GRPO,它將循序漸進學習與一種基于距離的獎勵機制相結合,這種獎勵機制能提供持續的感知反饋。該框架能夠逐步增強差異敏感性,并實現更精細的視覺辨別能力。

圖 2. 奇異網格基準測試概述。奇異網格基準測試涵蓋了四個主要的視覺屬性,包括顏色、大小、旋轉和位置,并支持單一屬性和多屬性差異組合,為評估多層低秩模型的感知差異敏感性提供了一個系統的框架。

圖 3.MLLMs 在 OddGridBench 上的評估結果。人類的表現明顯優于所有參與評估的 MLLM,無論是在顏色、尺寸、旋轉和位置方面,還是在多種類型組合方面均如此。

具體細節
論文構建了 OddGridBench數據集,采用“奇偶檢測”范式,每個樣本是一個由 5×5 至 9×9 圖標組成的網格,其中只有一個圖標在顏色(ΔE)、大小(Δs)、旋轉(Δθ)或位置(Δx,Δy)上與其余圖標存在微小差異。數據集包含 1400 個測試樣本,覆蓋四個單一屬性變化和三個多屬性組合。

圖 4.OddGridBench數據生成流程概述:該流程在嚴格控制的感知條件下,根據收集到的圖標構建基于網格的圖像,以評估視覺差異敏感度。
在模型評估方面,作者測試了 19 個主流 MLLMs,包括開源模型(如 Qwen3-VL、InternVL3.5)和閉源系統(如 GPT-5、Gemini-2.5-Pro),并與人類表現進行對比。
在訓練方法上,論文提出 OddGrid-GRPO,改進自 GRPO 算法。主要創新包括:(1)課程學習:將訓練樣本按難度分為易、中、難三組,逐步訓練模型,從明顯差異過渡到細微差異;(2)距離感知獎勵:替代傳統二元獎勵,根據預測位置與真實位置之間的歐氏距離給予連續獎勵(高斯衰減),并加入格式獎勵。最終獎勵函數為:


圖 5.OddGrid-GRPO 框架概述。OddGrid-GRPO 將基于課程的優化與基于空間的獎勵塑造相結合,以增強感知基礎,并提高多語言語言模型中的精細視覺辨別能力。

實驗結果
人類 vs 模型:人類總體準確率達 87.47%,而最佳模型 Qwen3-VL-32B 僅為 68.07%,Gemini-2.5-Pro 為 49.29%,GPT-5 僅 28.93%。

表 1.各種 MLLM 在 OddGridBench 數據集上的準確率(%)。該基準測試評估了在四個感知維度以及它們的多種組合下的精細視覺辨別能力。深灰色和淺灰色分別表示所有模型中的最佳結果和次佳結果。
屬性差異敏感度:模型對顏色差異最敏感,對旋轉和位置差異最不敏感。

圖 6. 在四個視覺維度中不同感知差異幅度下的準確率。
OddGrid-GRPO 效果:在 Qwen3-VL-2B 上,OddGrid-GRPO 將總體準確率從 17.14%(基線)提升至 82.64%,顯著優于標準 GRPO(70.86%)和 GSPO(75.93%)。

表 3. 在 OddGridBench 上針對所有感知屬性類型,對 OddGrid-GRPO 與現有強化學習方法(上半部分)及其變體(下半部分)的定量比較結果。

總結
本文揭示了當前多模態大語言模型在細粒度視覺差異感知方面的系統性不足,提出并開源了可控、可擴展的評估基準 OddGridBench,以及有效的強化學習提升框架 OddGrid-GRPO。實驗表明,即使是最先進的模型,在類似人類的視覺“找不同”任務中仍遠未達到人類水平。
本文推出了 OddGridBench 這一可調控的基準測試工具,用于評估 MLLMs 的視覺差異敏感度。研究發現,精細的感知敏感度仍是當前 MLLMs 的一個關鍵瓶頸,阻礙了它們實現可靠且基于實際的視覺理解的能力。本文進一步開發了 OddGrid-GRPO,一個強化學習框架,它將空間距離嵌入到訓練目標中,并將基于課程的優化與距離感知獎勵相結合,以提高訓練的穩定性和與人類一致的視覺敏感度。本文致力于OddGridBench 和 OddGridGRPO 構建了一個基于原理的感知基礎學習框架,為多模態智能的感知基礎提供了新的見解。
參考資料:
Weng T, Jiang W, Wang J, et al. OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models[J]. arXiv, 2026.
本專題其他文章