0
| 本文作者: 陳淑瑜 | 2026-05-28 10:46 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“遙感與深度學習“
原文鏈接:https://mp.weixin.qq.com/s/ojm6yRWRURFIL1UlD9ZwPw?scene=1&click_id=138
題目:Prompt-Free Universal Region Proposal Network
會議:The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文: https://arxiv.org/abs/2603.17554
數據: CD-FSOD benchmark、ODinW13 benchmark,共19個數據集
代碼: https://github.com/tangqh03/PF-RPN
年份: 2026
單位: 南京大學、中國科學技術大學
CVPR2026 遙感AI方向合集:CVPR2026
現有目標檢測中的區域候選網絡(RPN)在面對未見域時泛化能力不足,難以識別未知類別目標。開放詞匯目標檢測(OVD)方法雖具備一定泛化能力,但通常依賴類別名稱或樣例圖像作為提示輸入,在工業缺陷檢測、水下目標檢測等實際場景中提示信息往往不可獲取,限制了其靈活性。
部分無提示OVD方法嘗試借助生成式視覺語言大模型(VLM)自動生成描述以消除手動提示的依賴,但此類方法引入了顯著的內存和推理延遲開銷。因此,亟需一種高效的區域候選網絡,能夠在無任何外部提示的條件下跨域泛化,直接應用于多種下游檢測任務。
PF-RPN基于Grounding DINO構建,以可學習嵌入替代文本嵌入,通過純視覺特征生成目標候選框,無需任何文本或圖像提示。圖像編碼器提取多層次特征圖后,依次經過SIA模塊、CSP模塊和CG-QS模塊,最終輸出高質量目標候選框。

PF-RPN在CD-FSOD和ODinW13共19個跨域數據集上均顯著超越現有OVD模型、傳統RPN及多模態大語言模型,展現出強大的零樣本跨域泛化能力。此外,與同類無提示方法相比,PF-RPN在大幅提升檢測性能的同時,推理速度和顯存占用均具有明顯優勢,具備更高的實際部署價值。在遙感場景下,PF-RPN在DIOR數據集上同樣取得了最優性能,顯著領先于GLIP、YOLOE、YOLOWorld等對比方法,驗證了其在遙感圖像目標定位任務中的有效性。




本專題其他文章