0
| 本文作者: 陳淑瑜 | 2026-05-26 14:37 | 專題:ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議 |
來(lái)源:公眾號(hào)“新機(jī)器視覺(jué)”
原文鏈接:https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA

題目:GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments
作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu
來(lái)源: IEEE International Conference on Robotics and Automation(ICRA 2026)
論文鏈接: https://arxiv.org/abs/2604.12837
概述
視覺(jué)SLAM算法通過(guò)探索三維高斯點(diǎn)擴(kuò)散(3D Gaussian Splatting,3DGS)表示方法實(shí)現(xiàn)了顯著改進(jìn),尤其在生成高保真密集地圖方面表現(xiàn)突出。然而,這些算法依賴于靜態(tài)環(huán)境假設(shè),在動(dòng)態(tài)環(huán)境中性能會(huì)大幅下降。本文提出的GGD -SLAM框架采用可泛化的運(yùn)動(dòng)模型,無(wú)需預(yù)定義語(yǔ)義標(biāo)注或深度輸入即可應(yīng)對(duì)動(dòng)態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。具體而言,該系統(tǒng)采用先進(jìn)先出(First-In-First-Out,FIFO)隊(duì)列管理傳入幀,并通過(guò)順序注意力機(jī)制實(shí)現(xiàn)動(dòng)態(tài)語(yǔ)義特征提取;同時(shí)整合動(dòng)態(tài)特征增強(qiáng)器以分離靜態(tài)與動(dòng)態(tài)成分。此外,為最小化動(dòng)態(tài)干擾項(xiàng)對(duì)靜態(tài)成分的影響,我們提出利用靜態(tài)信息采樣填補(bǔ)被遮擋區(qū)域的方法,并設(shè)計(jì)了面向動(dòng)態(tài)環(huán)境的抗干擾結(jié)構(gòu)相似性(
Structure Similarity Index Measure,SSIM)損失函數(shù),顯著提升了系統(tǒng)的魯棒性。基于真實(shí)世界動(dòng)態(tài)數(shù)據(jù)集的實(shí)驗(yàn)表明,所提系統(tǒng)在動(dòng)態(tài)場(chǎng)景下的相機(jī)位姿估計(jì)和密集地圖重建任務(wù)中均達(dá)到業(yè)界領(lǐng)先水平。

圖1 研究動(dòng)機(jī):左圖:DyPho?SLAM 需要特定語(yǔ)義標(biāo)簽和深度輸入來(lái)去除動(dòng)態(tài)物體;右圖:WildGS?SLAM中的ML受限于單一場(chǎng)景的渲染效果;本文提出的GGD?SLAM引入了通用運(yùn)動(dòng)模型,無(wú)需語(yǔ)義標(biāo)簽或深度輸入,減少了對(duì)單場(chǎng)景3DGS渲染損失監(jiān)督的依賴。
研究方法
給定單目相機(jī)(內(nèi)參已知)以固定幀率拍攝、包含動(dòng)態(tài)物體的圖像序列 I={Ii}i=1N(Ii∈RH×W×3),本文目標(biāo)是求解對(duì)應(yīng)的相機(jī)位姿矩陣 T={Ti}i=1N,并逐幀更新高斯參數(shù) G={μj,αj,∑j,cj}j=1n(G)。
高斯參數(shù)由空間位置 μj、不透明度 αj、協(xié)方差矩陣 ∑j 和基于球諧函數(shù)的顏色系數(shù) cj 共同表征。求解 T 和 G 需滿足兩個(gè)核心要求:1)最小化絕對(duì)軌跡誤差的均方根值;2)實(shí)現(xiàn)最優(yōu)的高斯渲染效果,以精準(zhǔn)表征靜態(tài)環(huán)境。
所提 GGD-SLAM 算法的整體流程通過(guò)一系列關(guān)聯(lián)模塊完成動(dòng)態(tài)環(huán)境下的定位與稠密建圖任務(wù),整體框架如圖 2 所示。

圖 2 GGD-SLAM 算法流程圖
本文核心創(chuàng)新在于設(shè)計(jì)適用于時(shí)序圖像序列的動(dòng)態(tài)語(yǔ)義提取通用運(yùn)動(dòng)模型,專門(mén)面向增量式 SLAM 系統(tǒng)(算法 1)。該模型無(wú)需單場(chǎng)景在線訓(xùn)練,可作為 GS-SLAM 系統(tǒng)的強(qiáng)魯棒先驗(yàn)。
1)數(shù)據(jù)預(yù)處理
輸入圖像 It 經(jīng)預(yù)訓(xùn)練 DINOv2 特征提取器,得到圖像特征 xt=DINOv2(It)∈RH′×W′×C。其中,H′、W′ 為分塊嵌入后特征圖的空間下采樣維度,C 為通道維度。
但 xt 僅捕捉 It 的結(jié)構(gòu)特征與靜態(tài)語(yǔ)義信息,缺乏建模場(chǎng)景演化所需的時(shí)序動(dòng)態(tài)信息。為此,引入先進(jìn)先出隊(duì)列 Qt,逐幀聚合時(shí)序特征用于動(dòng)態(tài)語(yǔ)義提取,更新規(guī)則如下:

隊(duì)列未滿時(shí),在前端補(bǔ)零向量以維持時(shí)序一致性。動(dòng)態(tài)語(yǔ)義由 L 幀間時(shí)序變化決定 ——L 越大,運(yùn)動(dòng)推理的時(shí)序上下文越豐富。
2)時(shí)序注意力機(jī)制
獲取當(dāng)前幀結(jié)構(gòu)特征 xt 與歷史特征隊(duì)列 Qt 后,通過(guò)注意力機(jī)制融合上下文信息:


其中,Qt∈R(1×H′×W′)×C為當(dāng)前幀特征生成的查詢向量;Kt,Vt∈R(L×H′×W′)×C由歷史特征生成,用于構(gòu)建時(shí)序檢索索引,實(shí)現(xiàn)跨幀特征匹配;輸出Fattn,t∈RH′×W′×C為融合時(shí)序信息的增強(qiáng)特征,用于通用運(yùn)動(dòng)語(yǔ)義分割。
為強(qiáng)化動(dòng)靜分離效果,將 Fattn,t 輸入動(dòng)態(tài)頭與靜態(tài)頭兩個(gè)獨(dú)立分支,得到解耦特征:動(dòng)態(tài)屬性增強(qiáng)系數(shù) D∈RH′×W′×C、靜態(tài)分量抑制系數(shù) S∈RH′×W′×C。再通過(guò)門(mén)控注意力機(jī)制融合:

式中,⊙ 為哈達(dá)瑪積,平衡系數(shù) α 為可學(xué)習(xí)參數(shù)(初始值 0.5)。增強(qiáng)特征 Fenh,t 與原始結(jié)構(gòu)特征 xt 拼接后輸入前饋網(wǎng)絡(luò),輸出低分辨率動(dòng)態(tài)概率圖 Mraw,t∈RH′×W′;經(jīng)雙線性插值得到全分辨率動(dòng)態(tài)概率圖 Mt∈RH×W,像素值大小直接表示該位置為動(dòng)態(tài)區(qū)域的概率。
3)模型訓(xùn)練
為訓(xùn)練能捕捉時(shí)空特征的通用運(yùn)動(dòng)模型,基于真實(shí)動(dòng)態(tài)掩碼 Mgt,t∈RH×W 設(shè)計(jì)監(jiān)督損失函數(shù):


基礎(chǔ)損失Lbase:計(jì)算 Mgt,t 與 Mt 的像素級(jí)絕對(duì)誤差,保證幾何精度。
正則損失Lreg:引入二值熵懲罰項(xiàng):

針對(duì) 0.5 附近的模糊預(yù)測(cè),在中間值處梯度最大,推動(dòng)輸出收斂至 {0,1}。
Dice 損失 Ldice:彌補(bǔ)像素級(jí)損失對(duì)結(jié)構(gòu)完整性捕捉不足的缺陷:

概率化輸出易引入動(dòng)態(tài)關(guān)聯(lián)錯(cuò)誤,模糊邊緣會(huì)降低跟蹤精度。推理階段采用大津自適應(yīng)閾值法對(duì)概率圖二值化,得到原始掩碼 Mraw,t;再用圓盤(pán)形結(jié)構(gòu)元 Kr 做形態(tài)學(xué)膨脹,細(xì)化動(dòng)態(tài)物體邊緣,輸出通用動(dòng)態(tài)先驗(yàn)二值掩碼 Mt。
基于現(xiàn)有研究基礎(chǔ),引入 Metric3D-v2 輸出的尺度感知單目深度估計(jì) Dest∈RH×W,利用其跨場(chǎng)景零樣本泛化能力提升位姿估計(jì)魯棒性。
位姿估計(jì)采用 DROID-SLAM 的稠密光束平差法(DBA)框架,構(gòu)建幀圖 G=(V,E):V 為關(guān)鍵幀集合,E 為關(guān)鍵幀間共視約束。目標(biāo)是優(yōu)化相機(jī)位姿 T[?],并估計(jì)關(guān)鍵幀單目深度圖 d[?]∈RH×W。
動(dòng)態(tài)點(diǎn)會(huì)導(dǎo)致因子圖構(gòu)建錯(cuò)誤,降低計(jì)算效率與系統(tǒng)性能。為此,利用通用運(yùn)動(dòng)模型輸出動(dòng)態(tài)先驗(yàn),完全剔除動(dòng)態(tài)區(qū)域殘差:提取靜態(tài)分量 S[?]=1?M[?],∑[?] 為 DROID-SLAM 基礎(chǔ)協(xié)方差權(quán)重,將動(dòng)態(tài)干擾轉(zhuǎn)化為可處理的優(yōu)化約束:

第一項(xiàng):DROID-SLAM 單目位姿估計(jì)目標(biāo),動(dòng)態(tài)區(qū)域殘差權(quán)重置零,排除非靜態(tài)干擾、提升效率;
第二項(xiàng):深度監(jiān)督損失,利用神經(jīng)深度預(yù)測(cè)約束深度估計(jì);
第三項(xiàng):軌跡平滑正則化,懲罰相鄰幀間位姿突變。
1 )通用運(yùn)動(dòng)模型引導(dǎo)的不確定性估計(jì)
基于WildGS-SLAM的不確定性感知框架,將特征 xt輸入淺層MLP P,預(yù)測(cè)不確定性圖 Ut=P(xt)∈RH×W。該方法可處理模糊干擾、提升渲染質(zhì)量,但過(guò)度依賴單場(chǎng)景3DGS渲染損失,單幀輸入易導(dǎo)致動(dòng)態(tài)誤判。
為此,融合聚合時(shí)序特征的通用運(yùn)動(dòng)模型,將其作為時(shí)序先驗(yàn)嵌入原框架:

L3DGS:渲染圖像與輸入圖像的重建誤差,定義見(jiàn)式 (12);
LregU:不確定性正則項(xiàng),LregU=logUt,防止不確定性值趨于無(wú)窮;
Lprior:先驗(yàn)?zāi)P驼`差:

式中,Tmax 為動(dòng)態(tài)區(qū)域目標(biāo)不確定性閾值。該損失緩解不確定性感知方法的動(dòng)態(tài)誤判,同時(shí)兼容噪聲、光照變化等靜態(tài)干擾。
2)增量式高斯地圖構(gòu)建
獲取新關(guān)鍵幀后,增量式創(chuàng)建高斯以優(yōu)化地圖:對(duì)圖像中新觀測(cè)特征點(diǎn),初始化高斯參數(shù) —— 顏色 c? 取對(duì)應(yīng)像素顏色,空間位置 μ? 由像素反投影得到,不透明度 α? 初始化為 0.5,半徑初始化為 0.1。
當(dāng)幀中存在動(dòng)態(tài)物體時(shí),通過(guò)動(dòng)態(tài)區(qū)域鄰域隨機(jī)采樣維持遮擋區(qū)域幾何連續(xù)性:為當(dāng)前幀靜態(tài)高斯的二維坐標(biāo) (μ?,x,μ?,y) 構(gòu)建 KD 樹(shù);對(duì)動(dòng)態(tài)點(diǎn) μi∈Mt,查詢其 k 近鄰靜態(tài)高斯,隨機(jī)采樣鄰域內(nèi)靜態(tài)點(diǎn),替換動(dòng)態(tài)點(diǎn)的深度與顏色屬性:

再對(duì)遮擋點(diǎn)執(zhí)行尺度擴(kuò)張與不透明度增強(qiáng),緩解遮擋區(qū)域點(diǎn)云稀疏導(dǎo)致的優(yōu)化效率下降問(wèn)題
3)高斯參數(shù)更新
高斯地圖渲染RGB圖像流程:按視角深度對(duì)3D 高斯排序,通過(guò) α 混合投影渲染像素顏色 Ir 與深度 Dr:

通過(guò)梯度下降迭代更新高斯參數(shù),最小化建圖損失:

L3DGS:渲染圖像與輸入圖像、深度估計(jì)的殘差,通過(guò)不確定性圖逐元素加權(quán):

Liso:尺度正則項(xiàng),抑制稀疏區(qū)域偽影;
Lssim:傳統(tǒng)SSIM損失計(jì)算局部亮度、對(duì)比度、空間相關(guān)性,動(dòng)態(tài)場(chǎng)景中易受干擾。傳統(tǒng)方法先算SSIM 圖再剔除動(dòng)態(tài)區(qū)域,仍會(huì)殘留污染(如圖3)。本文提出動(dòng)態(tài)自適應(yīng)SSIM:用單位卷積核 wunit 與靜態(tài)分量St做哈達(dá)瑪積 與卷積,生成自適應(yīng)核 wad(O) 并統(tǒng)計(jì)有效靜態(tài)像素?cái)?shù) Nad(O),僅在純靜態(tài)區(qū)域計(jì)算 SSIM:

對(duì)比度與空間相關(guān)性計(jì)算同理,最終得到純凈的動(dòng)態(tài)自適應(yīng) SSIM 圖。

圖 3 動(dòng)態(tài)自適應(yīng) SSIM 示意圖
實(shí)驗(yàn)
為驗(yàn)證本文提出的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò),以 fr3/w/half 序列為例進(jìn)行可視化(圖4)。基于單幀圖像的特定標(biāo)簽分割在小目標(biāo)、快速運(yùn)動(dòng)模糊物體、相機(jī)大幅運(yùn)動(dòng)場(chǎng)景下易出現(xiàn)誤分類;WildGS?SLAM 的不確定性感知方法在背景區(qū)域極易誤判,導(dǎo)致有效圖像信息不足,進(jìn)而降低定位精度與背景重建質(zhì)量。相比之下,本文的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò)可基于歷史幀提取運(yùn)動(dòng)物體語(yǔ)義,提取效果優(yōu)異。僅使用基礎(chǔ)損失進(jìn)行像素級(jí)學(xué)習(xí)會(huì)限制結(jié)構(gòu)特征保留,產(chǎn)生明顯噪聲;在第 800 幀中,椅子在單幀下看似靜止,但在長(zhǎng)期歷史觀測(cè)中存在運(yùn)動(dòng),模型可準(zhǔn)確將其判定為動(dòng)態(tài)。

圖 4:不同動(dòng)態(tài)提取器在 fr3/w/half 序列上的定性結(jié)果
表 1:在 TUM 與 Bonn 挑戰(zhàn)性數(shù)據(jù)集動(dòng)態(tài)場(chǎng)景下的相機(jī)跟蹤結(jié)果

表1給出 TUM 與波恩動(dòng)態(tài)場(chǎng)景下的相機(jī)跟蹤結(jié)果。基于 RGBD 的方法因深度傳感器提供精確絕對(duì)尺度,定位精度表現(xiàn)較強(qiáng)。盡管 Dy3DGS?SLAM、WildGS?SLAM 等單目動(dòng)態(tài) SLAM 系統(tǒng)具備動(dòng)態(tài)物體處理能力,但因缺乏精準(zhǔn)的動(dòng)態(tài)干擾識(shí)別方法、引入錯(cuò)誤數(shù)據(jù)關(guān)聯(lián),性能仍低于本文方法。本文方法結(jié)合高效的、面向增量式 SLAM 輸入的通用運(yùn)動(dòng)模型,在 fr3/w/half、bonn/crowd2 等高動(dòng)態(tài)序列中實(shí)現(xiàn)了超越 RGBD 方法的跟蹤精度。在 TUM 與波恩數(shù)據(jù)集上的消融實(shí)驗(yàn)(表2)驗(yàn)證了各模塊的有效性:通用先驗(yàn)、大津二值化、平滑項(xiàng)均能提升系統(tǒng)魯棒性。
表 2:在 Bonn RGB?D 動(dòng)態(tài)數(shù)據(jù)集上的消融實(shí)驗(yàn)

將本文方法與開(kāi)源 3DGS SLAM 算法對(duì)比,評(píng)估建圖能力。如圖 5 所示:DG?SLAM、DyPho?SLAM 需要語(yǔ)義標(biāo)簽與深度輸入;MonoGS、Splatam 在動(dòng)態(tài)干擾下性能嚴(yán)重下降;WildGS?SLAM 依賴 3DGS 渲染,相機(jī)大幅運(yùn)動(dòng)后背景渲染效果差,導(dǎo)致動(dòng)態(tài)物體誤判、系統(tǒng)性能下降,且邊緣物體遮擋去除不徹底,殘留偽影。本文 GGD?SLAM 可有效消除動(dòng)態(tài)干擾,同時(shí)保持高質(zhì)量背景渲染。

圖 5:當(dāng)前主流高斯濺射 SLAM 方法的渲染結(jié)果對(duì)比
如表3 所示,本文方法在 TUM、波恩動(dòng)態(tài)序列上,單目 3DGS 類方法中取得最優(yōu)性能。針對(duì)干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復(fù)的消融實(shí)驗(yàn)(表4)驗(yàn)證了建圖模塊的有效性。
表 3:在 TUM 與 Bonn 動(dòng)態(tài)數(shù)據(jù)集上的建圖結(jié)果

表 4:干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復(fù)方法的消融實(shí)驗(yàn)

在更通用的 Wild?SLAM 數(shù)據(jù)集上驗(yàn)證本文的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò)(圖 6)。模型成功分割各類運(yùn)動(dòng)物體,引導(dǎo)不確定性生成,實(shí)現(xiàn)高質(zhì)量渲染。與 TUM、波恩數(shù)據(jù)集相比,Wild?SLAM 數(shù)據(jù)集圖像分辨率更高、相機(jī)運(yùn)動(dòng)更平緩,3DGS 渲染質(zhì)量更易達(dá)到較高水平。在此條件下,不確定性感知機(jī)制可有效適配,GGD?SLAM 與 WildGS?SLAM 均取得極高性能。

圖 6:本文 GGD?SLAM 在 Wild?SLAM 數(shù)據(jù)集上的效果展示
結(jié)論
本文提出了GGD?SLAM,一種具備泛化能力且魯棒的框架,可在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)定位與真實(shí)感稠密建圖。
為解決動(dòng)態(tài)目標(biāo)剔除難題,本文提出一種泛化型動(dòng)態(tài)提取器,該方法利用歷史幀隊(duì)列上的注意力機(jī)制提取動(dòng)態(tài)語(yǔ)義。此外,本方法還與背景一致性建圖流程相結(jié)合,以最小化動(dòng)態(tài)目標(biāo)對(duì)靜態(tài)分量的影響。
大量實(shí)驗(yàn)表明,GGD?SLAM 在真實(shí)感建圖方面顯著優(yōu)于現(xiàn)有 SOTA SLAM 方法。
未來(lái)工作中,我們旨在實(shí)現(xiàn)動(dòng)態(tài)目標(biāo)運(yùn)動(dòng)的實(shí)時(shí)重建與完全遮擋區(qū)域的修復(fù),同時(shí)保證靜態(tài)場(chǎng)景的穩(wěn)定性。
本專題其他文章