CVPR2026 | 極少數據訓練的通用目標檢測模型, 無需提示跨域泛化, 遙感數據表現優異！

本文作者：陳淑瑜

2026-05-28 10:46

導語：無需任何文本或視覺提示的通用區域候選網絡PF-RPN，通過可學習視覺嵌入替代文本嵌入實現開放世界目標定位

來源：公眾號“遙感與深度學習“

原文鏈接：https://mp.weixin.qq.com/s/ojm6yRWRURFIL1UlD9ZwPw?scene=1&click_id=138

題目：Prompt-Free Universal Region Proposal Network
會議：The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文： https://arxiv.org/abs/2603.17554
數據： CD-FSOD benchmark、ODinW13 benchmark，共19個數據集
代碼： https://github.com/tangqh03/PF-RPN
年份： 2026
單位： 南京大學、中國科學技術大學

CVPR2026 遙感AI方向合集：CVPR2026

創新點

提出無需任何文本或視覺提示的通用區域候選網絡PF-RPN，通過可學習視覺嵌入替代文本嵌入實現開放世界目標定位
設計稀疏圖像感知適配器（SIA），利用混合專家機制自適應融合多層次視覺特征以初始化和更新可學習嵌入
提出級聯自提示模塊（CSP），通過深到淺的迭代精化機制逐步擴展目標區域激活、抑制背景噪聲
設計中心性引導查詢選擇模塊（CG-QS），利用中心性評分優先選取靠近目標中心的查詢以提升候選框質量

背景

現有目標檢測中的區域候選網絡（RPN）在面對未見域時泛化能力不足，難以識別未知類別目標。開放詞匯目標檢測（OVD）方法雖具備一定泛化能力，但通常依賴類別名稱或樣例圖像作為提示輸入，在工業缺陷檢測、水下目標檢測等實際場景中提示信息往往不可獲取，限制了其靈活性。

部分無提示OVD方法嘗試借助生成式視覺語言大模型（VLM）自動生成描述以消除手動提示的依賴，但此類方法引入了顯著的內存和推理延遲開銷。因此，亟需一種高效的區域候選網絡，能夠在無任何外部提示的條件下跨域泛化，直接應用于多種下游檢測任務。

數據

CD-FSOD Benchmark

包含六個具有顯著域偏移的跨域數據集

ArTaxOr：昆蟲圖像數據集
Clipart1k：手繪卡通圖像數據集
DIOR：遙感圖像數據集
DeepFish：水下魚類圖像數據集
NEU-DET：工業缺陷圖像數據集
UODD：海洋生物圖像數據集

ODinW13 Benchmark

包含13個來自多樣化場景的數據集

涵蓋野生動物攝影、家用物品、航拍圖像等多種應用領域
用于評估模型在多樣真實場景下的跨域泛化能力

訓練數據

使用MS COCO數據集的5%（80類）進行檢測數據訓練
使用ImageNet數據集的5%（1000類）補充分類數據，以緩解圖像編碼器的域偏移偏差

方法

PF-RPN總體框架

PF-RPN基于Grounding DINO構建，以可學習嵌入替代文本嵌入，通過純視覺特征生成目標候選框，無需任何文本或圖像提示。圖像編碼器提取多層次特征圖后，依次經過SIA模塊、CSP模塊和CG-QS模塊，最終輸出高質量目標候選框。

CVPR2026 | 極少數據訓練的通用目標檢測模型, 無需提示跨域泛化, 遙感數據表現優異！

稀疏圖像感知適配器（SIA）

使用混合專家（MoE）路由機制

對各層特征圖進行全局平均池化后，通過輕量MLP路由器預測各層重要性權重
自適應選取Top-k（默認k=2）最具信息量的特征層，抑制冗余噪聲

利用交叉注意力機制將選中層的全局與局部特征融合至可學習嵌入中，使其獲得粗粒度與細粒度的視覺語義表示

級聯自提示模塊（CSP）

從深層到淺層迭代精化可學習嵌入

在每一層計算當前嵌入與視覺特征圖的余弦相似度，生成目標區域掩碼
通過掩碼平均池化將目標內部特征累積更新至嵌入中

默認迭代3次，在精度與效率之間取得最優平衡，引入的推理延遲極小

中心性引導查詢選擇（CG-QS）

使用輕量MLP作為中心性評分網絡，為每個查詢預測其靠近目標中心的概率

訓練時以查詢點到真實框四條邊距離的幾何均值作為監督信號
推理時將中心性評分與分類評分結合，優先選取靠近目標中心的高質量查詢

目標損失函數

聯合優化回歸損失（L1+GIoU）、對比分類損失、路由負載均衡損失和中心性損失
通過超參數λ控制中心性損失權重（默認λ=5），避免其主導優化過程影響回歸性能

結果與分析

PF-RPN在CD-FSOD和ODinW13共19個跨域數據集上均顯著超越現有OVD模型、傳統RPN及多模態大語言模型，展現出強大的零樣本跨域泛化能力。此外，與同類無提示方法相比，PF-RPN在大幅提升檢測性能的同時，推理速度和顯存占用均具有明顯優勢，具備更高的實際部署價值。在遙感場景下，PF-RPN在DIOR數據集上同樣取得了最優性能，顯著領先于GLIP、YOLOE、YOLOWorld等對比方法，驗證了其在遙感圖像目標定位任務中的有效性。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章