0
| 本文作者: 陳淑瑜 | 2026-06-01 17:18 | 專題:CVPR 計(jì)算機(jī)視覺與模式識別會議 |
來源:公眾號“深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院”
原文鏈接:https://mp.weixin.qq.com/s/_ZOHn92s_WAcU6q3Y0X38Q
跨視角目標(biāo)地理定位技術(shù)廣泛應(yīng)用于輔助自動駕駛、智慧城市、航海導(dǎo)航等場景,核心是根據(jù)參考圖像內(nèi)目標(biāo)的GPS確定查詢圖像內(nèi)感興趣目標(biāo)的GPS等信息,面臨著跨視角圖像特征差異大、數(shù)據(jù)匱乏、定位精度不足等行業(yè)共性挑戰(zhàn)。
深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院未來媒體技術(shù)與計(jì)算研究所朱映映教授課題組在該方向上獨(dú)立完成一項(xiàng)創(chuàng)新工作,并發(fā)表在CVPR 2026會議上,該工作使得跨視角圖像目標(biāo)地理定位從單目標(biāo)地理定位到更符合實(shí)際需求的多目標(biāo)地理定位,下面讓我們深入了解下它。

Bo Lv, Qingwang Zhang,Le Wu,Yuanyuan Li, Yingying Zhu*
Shenzhen University

項(xiàng)目主頁: https://github.com/LV-BO001/MOGeo
跨視角目標(biāo)地理定位(Cross-View Object Geo-Localization, CVOGL)是一項(xiàng)在衛(wèi)星圖像中定位查詢圖像中的感興趣目標(biāo)GPS的技術(shù)。該技術(shù)在輔助自動駕駛、智慧城市構(gòu)建以及航海導(dǎo)航等關(guān)鍵場景中具有重要應(yīng)用價值。現(xiàn)有方法在目標(biāo)位置建模階段通常依賴歐式距離矩陣或高斯分布進(jìn)行位置編碼,然而此類表征方式不可避免地引入大量冗余噪聲信息,從而削弱了關(guān)鍵位置信號的表達(dá)能力,導(dǎo)致目標(biāo)定位精度受限。此外,大多數(shù)現(xiàn)有方法基于單目標(biāo)假設(shè),即默認(rèn)查詢圖像中僅包含一個目標(biāo)實(shí)例,這一前提與真實(shí)世界中多目標(biāo)共存的復(fù)雜場景存在顯著偏差。因此,現(xiàn)有方法在面對實(shí)際多目標(biāo)地理定位任務(wù)時往往表現(xiàn)出明顯的泛化能力不足,難以滿足復(fù)雜環(huán)境下的高精度定位需求。
該工作提出了一種基于查詢目標(biāo)位置增強(qiáng)方法的跨視角多目標(biāo)地理定位方法MOGeo。該方法從根本上突破了傳統(tǒng)單目標(biāo)建模范式,通過引入多查詢目標(biāo)的并行建模機(jī)制,實(shí)現(xiàn)了跨視角多目標(biāo)地理定位任務(wù)在復(fù)雜真實(shí)場景中的有效擴(kuò)展。在保持與現(xiàn)有最優(yōu)方法參數(shù)規(guī)模相當(dāng)?shù)那疤嵯拢琈OGeo同時提升了定位精度與推理效率。此外,結(jié)合面向感興趣區(qū)域的脈沖式位置編碼與對比學(xué)習(xí)策略,有效增強(qiáng)了關(guān)鍵位置信息表達(dá)與目標(biāo)間的判別能力。
該方法主要包含以下三個部分:
并行多查詢建模機(jī)制(Parallel Multi-Query Modeling)
首先,通過構(gòu)建多查詢目標(biāo)的并行輸入與并行預(yù)測框架,實(shí)現(xiàn)跨視角多目標(biāo)的統(tǒng)一定位,有效滿足復(fù)雜場景下多目標(biāo)同時定位的實(shí)際需求。
脈沖式位置編碼與跨視角特征增強(qiáng)(Impulse-based Positional Encoding & Feature Fusion)
其次,引入面向查詢圖像中感興趣目標(biāo)的脈沖式位置編碼,以強(qiáng)化關(guān)鍵區(qū)域的空間表征能力,并設(shè)計(jì)跨視角特征融合模塊,進(jìn)一步提升目標(biāo)位置表達(dá)的準(zhǔn)確性與魯棒性。
對比損失增強(qiáng)區(qū)分能力
最后,通過引入對比損失,有效拉開不同目標(biāo)特征之間的分布差異,從而增強(qiáng)多目標(biāo)場景下的區(qū)分能力與定位穩(wěn)定性。
與現(xiàn)有跨視角單目標(biāo)地理定位方法相比,在模型參數(shù)規(guī)模基本相當(dāng)?shù)那疤嵯拢岢龅腗OGeo在定位精度與推理速度上均取得了顯著提升。
技術(shù)貢獻(xiàn)
提出了一種基于脈沖式位置編碼的查詢目標(biāo)表示方法
采用脈沖式位置編碼機(jī)制,強(qiáng)化查詢目標(biāo)的空間位置信號,有效抑制傳統(tǒng)連續(xù)編碼中引入的冗余噪聲干擾,為跨視角特征融合提供穩(wěn)定且高精度的位置信息支撐;
設(shè)計(jì)了一種基于殘差思想的跨視角圖像融合方法
通過建模查詢目標(biāo)表示與參考圖像特征之間的相似性關(guān)系,生成跨視角注意力映射,并結(jié)合殘差式二次融合策略,有效避免注意力信息被背景特征淹沒,從而顯著增強(qiáng)目標(biāo)區(qū)域的判別性表達(dá);
引入了對比學(xué)習(xí)機(jī)制增強(qiáng)目標(biāo)的區(qū)分能力
引入對比學(xué)習(xí)機(jī)制,通過拉開不同目標(biāo)特征向量之間的距離,從而增強(qiáng)多目標(biāo)場景的區(qū)分能力和穩(wěn)定性。
該方法的整體流程如圖1所示。模型輸入為同一地理位置下的查詢圖像與參考圖像。由于成像視角的顯著差異,兩者之間存在較大的視覺與語義鴻溝,同時在目標(biāo)層面共享有限的跨視角一致語義。此外,查詢圖像中往往包含多個感興趣目標(biāo),使得跨視角匹配與定位問題更加復(fù)雜且具有挑戰(zhàn)性。

圖1. 方法流程
首先,針對跨視角多目標(biāo)地理定位中查詢目標(biāo)位置信息表達(dá)不充分的問題,本文提出了一種基于脈沖式位置編碼的多頭查詢表示方法(MOPE)。該方法受Dirac δ函數(shù)啟發(fā),通過構(gòu)建one-hot空間掩碼,將查詢點(diǎn)映射為特征圖中的離散“預(yù)位置”表示,從而顯式消除連續(xù)位置編碼帶來的模糊性。隨后,通過通道拼接與逐元素增強(qiáng)策略,將位置編碼與視覺特征進(jìn)行融合,在避免語義信息對位置信號稀釋的同時,強(qiáng)化關(guān)鍵目標(biāo)區(qū)域的響應(yīng)能力,實(shí)現(xiàn)多目標(biāo)的獨(dú)立且穩(wěn)定表示。

圖2. 跨視角多特征融合模塊
其次,在跨視角特征對齊與匹配階段,本文設(shè)計(jì)了一種基于注意力驅(qū)動的跨視角多特征融合方法(CVMF)。該方法通過對查詢目標(biāo)特征與參考圖像特征進(jìn)行歸一化處理,并基于矩陣相似性計(jì)算構(gòu)建跨視角注意力映射,從而刻畫不同視角下的潛在對應(yīng)關(guān)系。在此基礎(chǔ)上,結(jié)合加權(quán)融合與特征拼接策略,對注意力信息進(jìn)行逐級增強(qiáng),有效避免目標(biāo)響應(yīng)被背景特征淹沒。同時,通過多頭并行機(jī)制實(shí)現(xiàn)多目標(biāo)的同步建模,從而提升復(fù)雜場景下的匹配精度與魯棒性。
最后,為提升多目標(biāo)之間的判別能力,本文引入了一種基于特征分布約束的對比優(yōu)化機(jī)制。通過構(gòu)建基于注意力特征的相似性損失函數(shù),顯式拉開不同目標(biāo)之間的特征距離,同時保持同一目標(biāo)在跨視角下的一致性,從而緩解多目標(biāo)場景中的特征混淆問題,提升定位結(jié)果的穩(wěn)定性與區(qū)分能力。
總體而言,本文將脈沖式位置編碼、多特征融合機(jī)制與對比學(xué)習(xí)策略進(jìn)行統(tǒng)一建模,形成完整的MOGeo框架,在跨視角多目標(biāo)地理定位任務(wù)中有效緩解語義鴻溝與多目標(biāo)干擾問題,在定位精度與計(jì)算效率之間取得良好平衡,實(shí)現(xiàn)高效、精準(zhǔn)且魯棒的多目標(biāo)定位。
如圖所示,所提出的方法能夠有效支持真實(shí)場景下的跨視角多目標(biāo)地理定位任務(wù)。值得注意的是,在模型參數(shù)規(guī)模與現(xiàn)有最先進(jìn)方法保持相當(dāng)?shù)那闆r下,本文方法在定位精度與推理效率上均實(shí)現(xiàn)了顯著提升,充分驗(yàn)證了其在復(fù)雜實(shí)際應(yīng)用場景中的有效性與實(shí)用性。

圖3. 定位效果圖對比

圖4. 模型參數(shù)量與推理速度對比
跨視角多目標(biāo)地理定位在實(shí)際應(yīng)用中面臨視角差異顯著、多目標(biāo)干擾復(fù)雜等挑戰(zhàn),現(xiàn)有方法難以滿足復(fù)雜場景下的跨視角多目標(biāo)定位需求。針對這一問題,本文提出了一種跨視角多目標(biāo)地理定位方法MOGeo。該方法通過脈沖式位置編碼強(qiáng)化目標(biāo)位置信息表達(dá),結(jié)合跨視角特征融合與對比學(xué)習(xí)機(jī)制,有效提升多目標(biāo)場景下的匹配與定位能力。在模型參數(shù)規(guī)模與現(xiàn)有最先進(jìn)方法基本一致的情況下,所提出方法在定位精度與推理速度上均取得顯著提升,為跨視角多目標(biāo)地理定位提供了一種高效且魯棒的解決方案。
本專題其他文章