• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    本文作者: 陳淑瑜   2026-05-28 11:38 專題:CVPR 計算機視覺與模式識別會議
    導語:OddGridBench:揭示多模態大語言模型缺乏細粒度視覺差異敏感性

    來源:公眾號“Al & Multimodal ”

    原文鏈接:https://mp.weixin.qq.com/s/RUoVbXgdFbIeeDOcnYQqng?scene=1&click_id=148

    者 | Darlene


    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    論文題目:

    OddGridBench:揭示多模態大語言模型缺乏細粒度視覺差異敏感性

    OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

    會議/期刊:

    CVPR 2026

    作者:

    Tengjin Weng、Wenhao Jiang、Jingyi Wang、Ming Li、Lin Ma、Zhong Ming等,來自深圳大學、清華大學深圳國際研究生院、美團等單位。

    文章地址: 

    https://arxiv.org/abs/2603.09326

    Github地址:

    • Homepage: https://wwwtttjjj.github.io/OddGridBench/
    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    摘要

    多模態大型語言模型(MLLMs)在廣泛的視覺語言任務中表現出了卓越的性能。然而,它們在低級視覺感知方面的能力,特別是對細微視覺差異的檢測能力,仍未得到充分探索,也缺乏系統的分析。

    該論文提出OddGridBench,一個用于評估MLLMs視覺差異敏感性的可控基準。OddGridBench包含超過1400張網格圖像,其中單個元素在顏色、大小、旋轉或位置上與其余元素存在微小差異。

    實驗表明,所有評估的MLLMs,包括開源系列(如Qwen3-VL和InternVL3.5,以及專有系統如Gemini-2.5-Pro和GPT-5)在視覺差異檢測方面的表現都遠低于人類水平。為進一步提升模型能力,作者提出OddGrid-GRPO,一個結合課程學習與距離感知獎勵的強化學習框架。通過逐步控制訓練樣本的難度,并將空間鄰近約束納入獎勵設計中,OddGridGRPO顯著增強了模型的精細視覺辨別能力。該論文希望OddGridBench和OddGrid-GRPO能夠為多模態智能中感知基礎的建立以及視覺差異敏感度的提升奠定基礎。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    圖 1. 人類感知視覺差異敏感度的示意圖,展示了從難以察覺到能夠察覺的色彩、旋轉和尺寸方面的視覺差異的轉變過程。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    主要貢獻

    1. 提出了OddGridBench,一個可擴展且可控的基準測試工具,用于評估多語言語言模型在感知差異方面的能力。通過在參數化空間中生成基于網格的圖像,并持續控制顏色、大小、旋轉和位置等要素,OddGridBench能夠對模型在多個感知維度上的敏感性進行定量和系統的分析。

    2. 對一系列最先進的開源和專有機器學習語言模型進行了全面的實驗,結果揭示了在所有模型類別中,細粒度感知識別方面存在一致且此前未被充分研究的故障模式。

    3. 提出了OddGrid-GRPO,它將循序漸進學習與一種基于距離的獎勵機制相結合,這種獎勵機制能提供持續的感知反饋。該框架能夠逐步增強差異敏感性,并實現更精細的視覺辨別能力。


    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    圖 2. 奇異網格基準測試概述。奇異網格基準測試涵蓋了四個主要的視覺屬性,包括顏色、大小、旋轉和位置,并支持單一屬性和多屬性差異組合,為評估多層低秩模型的感知差異敏感性提供了一個系統的框架。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準


    圖 3.MLLMs 在 OddGridBench 上的評估結果。人類的表現明顯優于所有參與評估的 MLLM,無論是在顏色、尺寸、旋轉和位置方面,還是在多種類型組合方面均如此。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    具體細節

    論文構建了 OddGridBench數據集,采用“奇偶檢測”范式,每個樣本是一個由 5×5 至 9×9 圖標組成的網格,其中只有一個圖標在顏色(ΔE)、大小(Δs)、旋轉(Δθ)或位置(Δx,Δy)上與其余圖標存在微小差異。數據集包含 1400 個測試樣本,覆蓋四個單一屬性變化和三個多屬性組合。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準


    圖 4.OddGridBench數據生成流程概述:該流程在嚴格控制的感知條件下,根據收集到的圖標構建基于網格的圖像,以評估視覺差異敏感度。


    在模型評估方面,作者測試了 19 個主流 MLLMs,包括開源模型(如 Qwen3-VL、InternVL3.5)和閉源系統(如 GPT-5、Gemini-2.5-Pro),并與人類表現進行對比。

    在訓練方法上,論文提出 OddGrid-GRPO,改進自 GRPO 算法。主要創新包括:(1)課程學習:將訓練樣本按難度分為易、中、難三組,逐步訓練模型,從明顯差異過渡到細微差異;(2)距離感知獎勵:替代傳統二元獎勵,根據預測位置與真實位置之間的歐氏距離給予連續獎勵(高斯衰減),并加入格式獎勵。最終獎勵函數為:

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    有效提升了模型的空間定位與細粒度判別能力。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    圖 5.OddGrid-GRPO 框架概述。OddGrid-GRPO 將基于課程的優化與基于空間的獎勵塑造相結合,以增強感知基礎,并提高多語言語言模型中的精細視覺辨別能力。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    實驗結果

    • 人類 vs 模型:人類總體準確率達 87.47%,而最佳模型 Qwen3-VL-32B 僅為 68.07%,Gemini-2.5-Pro 為 49.29%,GPT-5 僅 28.93%。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    表 1.各種 MLLM 在 OddGridBench 數據集上的準確率(%)。該基準測試評估了在四個感知維度以及它們的多種組合下的精細視覺辨別能力。深灰色和淺灰色分別表示所有模型中的最佳結果和次佳結果。


    • 屬性差異敏感度:模型對顏色差異最敏感,對旋轉和位置差異最不敏感。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    圖 6. 在四個視覺維度中不同感知差異幅度下的準確率。


    • OddGrid-GRPO 效果:在 Qwen3-VL-2B 上,OddGrid-GRPO 將總體準確率從 17.14%(基線)提升至 82.64%,顯著優于標準 GRPO(70.86%)和 GSPO(75.93%)。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    表 3. 在 OddGridBench 上針對所有感知屬性類型,對 OddGrid-GRPO 與現有強化學習方法(上半部分)及其變體(下半部分)的定量比較結果。

    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    總結

    本文揭示了當前多模態大語言模型在細粒度視覺差異感知方面的系統性不足,提出并開源了可控、可擴展的評估基準 OddGridBench,以及有效的強化學習提升框架 OddGrid-GRPO。實驗表明,即使是最先進的模型,在類似人類的視覺“找不同”任務中仍遠未達到人類水平。

    本文推出了 OddGridBench 這一可調控的基準測試工具,用于評估 MLLMs 的視覺差異敏感度。研究發現,精細的感知敏感度仍是當前 MLLMs 的一個關鍵瓶頸,阻礙了它們實現可靠且基于實際的視覺理解的能力。本文進一步開發了 OddGrid-GRPO,一個強化學習框架,它將空間距離嵌入到訓練目標中,并將基于課程的優化與距離感知獎勵相結合,以提高訓練的穩定性和與人類一致的視覺敏感度。本文致力于OddGridBench 和 OddGridGRPO 構建了一個基于原理的感知基礎學習框架,為多模態智能的感知基礎提供了新的見解。

    參考資料:

    Weng T, Jiang W, Wang J, et al. OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models[J]. arXiv, 2026.


    CVPR 2026 | 多模態大模型對視覺差異不敏感?深圳大學最新研究提出OddGridBench:一個細粒度視覺差異識別評測基準

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产一区二区三区粉嫩av| 毛片一区二区| 99国产精品永久免费视频| 国产亚洲av| 精品久久久久中文字幕加勒比| 麻豆成人精品国产免费| 一本之道加勒比人妻| 亚洲欧美18V中文字幕高清 | 国产白浆内| 日本二区三区欧美亚洲国| 99精产国品一二三产品香蕉| 手机看片欧美| 欧美中文字幕精品人妻| 国产盗摄精品一区二区| 国产首页一区二区不卡| 青草伊人网| 中文字幕乱码免费在线视频| 在办公室被c到呻吟的动态图| 色伦专区97中文字幕| 国产成人精品无人区一区| 欧美伊人久久大香线蕉在观| 最新中文字幕国产精品| 欧美3p视频| www.日| 亚洲人成网站色7799| 日本黄页网站免费观看| 国产高颜值大学生情侣酒店| 99热这里只有精品免费| 日韩欧美亚洲综合久久| 色www88| 亚洲无码男人| 四虎永久在线精品影院| 蜜桃网址| 欧洲无码精品| 国产丝袜熟女一区二区在线| 大桥久未无码吹潮在线观看| 狠狠躁夜夜躁人人爽天天5| 国产成人青青久久大片| 亚洲 欧美 日韩在线不卡| 欧美日韩国产精品自在自线| 国产精品美女www爽爽爽视频|