CVPR 2026 | MOGeo：跨視角多目標(biāo)地理定位技術(shù)

本文作者：陳淑瑜

2026-06-01 17:18

導(dǎo)語：MOGeo使得跨視角圖像目標(biāo)地理定位從單目標(biāo)地理定位到更符合實(shí)際需求的多目標(biāo)地理定位。

來源：公眾號“深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院”

原文鏈接：https://mp.weixin.qq.com/s/_ZOHn92s_WAcU6q3Y0X38Q

跨視角目標(biāo)地理定位技術(shù)廣泛應(yīng)用于輔助自動駕駛、智慧城市、航海導(dǎo)航等場景，核心是根據(jù)參考圖像內(nèi)目標(biāo)的GPS確定查詢圖像內(nèi)感興趣目標(biāo)的GPS等信息，面臨著跨視角圖像特征差異大、數(shù)據(jù)匱乏、定位精度不足等行業(yè)共性挑戰(zhàn)。

深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院未來媒體技術(shù)與計(jì)算研究所朱映映教授課題組在該方向上獨(dú)立完成一項(xiàng)創(chuàng)新工作，并發(fā)表在CVPR 2026會議上，該工作使得跨視角圖像目標(biāo)地理定位從單目標(biāo)地理定位到更符合實(shí)際需求的多目標(biāo)地理定位，下面讓我們深入了解下它。

CVPR 2026 | MOGeo：跨視角多目標(biāo)地理定位技術(shù)

Bo Lv, Qingwang Zhang，Le Wu，Yuanyuan Li, Yingying Zhu*

Shenzhen University

項(xiàng)目主頁： https://github.com/LV-BO001/MOGeo

問題定位

跨視角目標(biāo)地理定位（Cross-View Object Geo-Localization, CVOGL）是一項(xiàng)在衛(wèi)星圖像中定位查詢圖像中的感興趣目標(biāo)GPS的技術(shù)。該技術(shù)在輔助自動駕駛、智慧城市構(gòu)建以及航海導(dǎo)航等關(guān)鍵場景中具有重要應(yīng)用價值。現(xiàn)有方法在目標(biāo)位置建模階段通常依賴歐式距離矩陣或高斯分布進(jìn)行位置編碼，然而此類表征方式不可避免地引入大量冗余噪聲信息，從而削弱了關(guān)鍵位置信號的表達(dá)能力，導(dǎo)致目標(biāo)定位精度受限。此外，大多數(shù)現(xiàn)有方法基于單目標(biāo)假設(shè)，即默認(rèn)查詢圖像中僅包含一個目標(biāo)實(shí)例，這一前提與真實(shí)世界中多目標(biāo)共存的復(fù)雜場景存在顯著偏差。因此，現(xiàn)有方法在面對實(shí)際多目標(biāo)地理定位任務(wù)時往往表現(xiàn)出明顯的泛化能力不足，難以滿足復(fù)雜環(huán)境下的高精度定位需求。

方法概覽

該工作提出了一種基于查詢目標(biāo)位置增強(qiáng)方法的跨視角多目標(biāo)地理定位方法MOGeo。該方法從根本上突破了傳統(tǒng)單目標(biāo)建模范式，通過引入多查詢目標(biāo)的并行建模機(jī)制，實(shí)現(xiàn)了跨視角多目標(biāo)地理定位任務(wù)在復(fù)雜真實(shí)場景中的有效擴(kuò)展。在保持與現(xiàn)有最優(yōu)方法參數(shù)規(guī)模相當(dāng)?shù)那疤嵯拢琈OGeo同時提升了定位精度與推理效率。此外，結(jié)合面向感興趣區(qū)域的脈沖式位置編碼與對比學(xué)習(xí)策略，有效增強(qiáng)了關(guān)鍵位置信息表達(dá)與目標(biāo)間的判別能力。

該方法主要包含以下三個部分：

并行多查詢建模機(jī)制（Parallel Multi-Query Modeling）

首先，通過構(gòu)建多查詢目標(biāo)的并行輸入與并行預(yù)測框架，實(shí)現(xiàn)跨視角多目標(biāo)的統(tǒng)一定位，有效滿足復(fù)雜場景下多目標(biāo)同時定位的實(shí)際需求。

脈沖式位置編碼與跨視角特征增強(qiáng)（Impulse-based Positional Encoding & Feature Fusion）

其次，引入面向查詢圖像中感興趣目標(biāo)的脈沖式位置編碼，以強(qiáng)化關(guān)鍵區(qū)域的空間表征能力，并設(shè)計(jì)跨視角特征融合模塊，進(jìn)一步提升目標(biāo)位置表達(dá)的準(zhǔn)確性與魯棒性。

對比損失增強(qiáng)區(qū)分能力

最后，通過引入對比損失，有效拉開不同目標(biāo)特征之間的分布差異，從而增強(qiáng)多目標(biāo)場景下的區(qū)分能力與定位穩(wěn)定性。

與現(xiàn)有跨視角單目標(biāo)地理定位方法相比，在模型參數(shù)規(guī)模基本相當(dāng)?shù)那疤嵯拢岢龅腗OGeo在定位精度與推理速度上均取得了顯著提升。

技術(shù)貢獻(xiàn)

提出了一種基于脈沖式位置編碼的查詢目標(biāo)表示方法

采用脈沖式位置編碼機(jī)制，強(qiáng)化查詢目標(biāo)的空間位置信號，有效抑制傳統(tǒng)連續(xù)編碼中引入的冗余噪聲干擾，為跨視角特征融合提供穩(wěn)定且高精度的位置信息支撐；

設(shè)計(jì)了一種基于殘差思想的跨視角圖像融合方法

通過建模查詢目標(biāo)表示與參考圖像特征之間的相似性關(guān)系，生成跨視角注意力映射，并結(jié)合殘差式二次融合策略，有效避免注意力信息被背景特征淹沒，從而顯著增強(qiáng)目標(biāo)區(qū)域的判別性表達(dá)；

引入了對比學(xué)習(xí)機(jī)制增強(qiáng)目標(biāo)的區(qū)分能力

引入對比學(xué)習(xí)機(jī)制，通過拉開不同目標(biāo)特征向量之間的距離，從而增強(qiáng)多目標(biāo)場景的區(qū)分能力和穩(wěn)定性。

技術(shù)方案

該方法的整體流程如圖1所示。模型輸入為同一地理位置下的查詢圖像與參考圖像。由于成像視角的顯著差異，兩者之間存在較大的視覺與語義鴻溝，同時在目標(biāo)層面共享有限的跨視角一致語義。此外，查詢圖像中往往包含多個感興趣目標(biāo)，使得跨視角匹配與定位問題更加復(fù)雜且具有挑戰(zhàn)性。

圖1. 方法流程

首先，針對跨視角多目標(biāo)地理定位中查詢目標(biāo)位置信息表達(dá)不充分的問題，本文提出了一種基于脈沖式位置編碼的多頭查詢表示方法（MOPE）。該方法受Dirac δ函數(shù)啟發(fā)，通過構(gòu)建one-hot空間掩碼，將查詢點(diǎn)映射為特征圖中的離散“預(yù)位置”表示，從而顯式消除連續(xù)位置編碼帶來的模糊性。隨后，通過通道拼接與逐元素增強(qiáng)策略，將位置編碼與視覺特征進(jìn)行融合，在避免語義信息對位置信號稀釋的同時，強(qiáng)化關(guān)鍵目標(biāo)區(qū)域的響應(yīng)能力，實(shí)現(xiàn)多目標(biāo)的獨(dú)立且穩(wěn)定表示。

圖2. 跨視角多特征融合模塊

其次，在跨視角特征對齊與匹配階段，本文設(shè)計(jì)了一種基于注意力驅(qū)動的跨視角多特征融合方法（CVMF）。該方法通過對查詢目標(biāo)特征與參考圖像特征進(jìn)行歸一化處理，并基于矩陣相似性計(jì)算構(gòu)建跨視角注意力映射，從而刻畫不同視角下的潛在對應(yīng)關(guān)系。在此基礎(chǔ)上，結(jié)合加權(quán)融合與特征拼接策略，對注意力信息進(jìn)行逐級增強(qiáng)，有效避免目標(biāo)響應(yīng)被背景特征淹沒。同時，通過多頭并行機(jī)制實(shí)現(xiàn)多目標(biāo)的同步建模，從而提升復(fù)雜場景下的匹配精度與魯棒性。

最后，為提升多目標(biāo)之間的判別能力，本文引入了一種基于特征分布約束的對比優(yōu)化機(jī)制。通過構(gòu)建基于注意力特征的相似性損失函數(shù)，顯式拉開不同目標(biāo)之間的特征距離，同時保持同一目標(biāo)在跨視角下的一致性，從而緩解多目標(biāo)場景中的特征混淆問題，提升定位結(jié)果的穩(wěn)定性與區(qū)分能力。

總體而言，本文將脈沖式位置編碼、多特征融合機(jī)制與對比學(xué)習(xí)策略進(jìn)行統(tǒng)一建模，形成完整的MOGeo框架，在跨視角多目標(biāo)地理定位任務(wù)中有效緩解語義鴻溝與多目標(biāo)干擾問題，在定位精度與計(jì)算效率之間取得良好平衡，實(shí)現(xiàn)高效、精準(zhǔn)且魯棒的多目標(biāo)定位。

如圖所示，所提出的方法能夠有效支持真實(shí)場景下的跨視角多目標(biāo)地理定位任務(wù)。值得注意的是，在模型參數(shù)規(guī)模與現(xiàn)有最先進(jìn)方法保持相當(dāng)?shù)那闆r下，本文方法在定位精度與推理效率上均實(shí)現(xiàn)了顯著提升，充分驗(yàn)證了其在復(fù)雜實(shí)際應(yīng)用場景中的有效性與實(shí)用性。

圖3. 定位效果圖對比

圖4. 模型參數(shù)量與推理速度對比

跨視角多目標(biāo)地理定位在實(shí)際應(yīng)用中面臨視角差異顯著、多目標(biāo)干擾復(fù)雜等挑戰(zhàn)，現(xiàn)有方法難以滿足復(fù)雜場景下的跨視角多目標(biāo)定位需求。針對這一問題，本文提出了一種跨視角多目標(biāo)地理定位方法MOGeo。該方法通過脈沖式位置編碼強(qiáng)化目標(biāo)位置信息表達(dá)，結(jié)合跨視角特征融合與對比學(xué)習(xí)機(jī)制，有效提升多目標(biāo)場景下的匹配與定位能力。在模型參數(shù)規(guī)模與現(xiàn)有最先進(jìn)方法基本一致的情況下，所提出方法在定位精度與推理速度上均取得顯著提升，為跨視角多目標(biāo)地理定位提供了一種高效且魯棒的解決方案。

0人收藏

相關(guān)文章

專題

CVPR 計(jì)算機(jī)視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章