0
| 本文作者: 陳淑瑜 | 2026-06-02 17:48 |
來源:公眾號(hào)“視覺AI研報(bào)”
原文鏈接:https://mp.weixin.qq.com/s/RKSb3h2-BlGk7N5mxGk6DQ?scene=1
? 快速入口
導(dǎo)語:目標(biāo)檢測(cè)還能這么玩?最近CVPR 2026接收了一篇論文,直接把Agent(智能體)塞進(jìn)了目標(biāo)檢測(cè)里,效果直接炸裂——6個(gè)數(shù)據(jù)集平均提升28%!暗光場(chǎng)景更是暴力提升37%!這就是DetAS,"在任意場(chǎng)景檢測(cè)"的意思。?
一句話總結(jié):CVPR 2026接收的Agentic目標(biāo)檢測(cè)框架,用多模態(tài)大模型(MLLM)當(dāng)大腦,動(dòng)態(tài)指揮檢測(cè)流程。
| 全稱 | |
| 縮寫 | |
| 定位 | |
| 發(fā)表 | |
| arXiv |
┌─────────────────────────────────────────────┐
│ 目標(biāo)檢測(cè)的"三大難題" │
├─────────────────────────────────────────────┤
│ │
│ ? 黑暗場(chǎng)景:晚上拍照看不見 │
│ 手機(jī)夜景差,檢測(cè)直接掛 │
│ │
│ ? 領(lǐng)域差異:訓(xùn)練認(rèn)車,測(cè)試認(rèn)貓 │
│ 數(shù)據(jù)分布偏移,分分鐘失效 │
│ │
│ ? 不會(huì)思考:只會(huì)悶頭檢測(cè) │
│ 不知道"為什么要檢測(cè)這里" │
│ │
└─────────────────────────────────────────────┘
讓模型自己決定"要不要P圖"!
┌─────────────────────────────────────────────┐
│ DetAS怎么處理圖像 │
├─────────────────────────────────────────────┤
│ │
│ 輸入圖片 → MLLM判斷 → 決定增強(qiáng)策略 │
│ │
│ "這張?zhí)?quot; → "調(diào)亮+去噪" │
│ "這張還行" → "直接檢測(cè)" │
│ "這張模糊" → "銳化+增強(qiáng)" │
│ │
│ 相當(dāng)于:給照片加了"智能美顏" │
└─────────────────────────────────────────────┘
不是用一個(gè)檢測(cè)器,而是"開會(huì)決策"!
┌─────────────────────────────────────────────┐
│ 多專家"投票"機(jī)制 │
├─────────────────────────────────────────────┤
│ │
│ ? 專家1:通用檢測(cè)器 → 給我往死里檢 │
│ ? 專家2:暗光專家 → 專門處理夜景 │
│ ? 專家3:車輛專家 → 專門檢車 │
│ ? 專家4:動(dòng)物專家 → 專門檢動(dòng)物 │
│ │
│ ? MLLM決策:根據(jù)場(chǎng)景選專家 │
│ │
│ 效果:專業(yè)的事交給專業(yè)的人來做! │
└─────────────────────────────────────────────┘
越 Detection, 越聰明!
| +37.01% | ||
┌─────────────────────────────────────────────┐
│ DetAS vs 基線檢測(cè)器 │
├─────────────────────────────────────────────┤
│ │
│ DarkFace (暗光): │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基線: 45.2 F1 │
│ DetAS: 82.21 F1 ? (+37.01%) │
│ │
│ 通用場(chǎng)景: │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ 基線: 55.8 F1 │
│ DetAS: 70.2 F1 ? (+25.8%) │
│ │
│ 綜合平均:+28.36% │
└─────────────────────────────────────────────┘
┌─────────────────────────────────────────────┐
│ DetAS = 目標(biāo)檢測(cè)的"ChatGPT" │
├─────────────────────────────────────────────┤
│ │
│ 以前: │
│ 輸圖片 → 跑模型 → 出結(jié)果 │
│ "傻傻執(zhí)行,不動(dòng)腦子" │
│ │
│ DetAS: │
│ 輸圖片 → 想一想 → 選策略 → 精準(zhǔn)檢測(cè) │
│ "會(huì)思考的執(zhí)行力" │
│ │
│ 關(guān)鍵變量: │
│ = MLLM理解場(chǎng)景 + 自適應(yīng)處理 + 多專家融合 │
└─────────────────────────────────────────────┘
| 圖1 | ||
| 圖2 | ||
| 圖3 | ||
| 圖4 |
DetAS可能開啟"智能檢測(cè)時(shí)代":以后檢測(cè)器不只是"執(zhí)行命令",而是會(huì)"思考怎么做"——這可能就是目標(biāo)檢測(cè)的GPT時(shí)刻...
標(biāo)題
作者
發(fā)表
arXiv