ICRA 2026丨GGD-SLAM：面向動(dòng)態(tài)環(huán)境、基于通用運(yùn)動(dòng)模型的單目3D高斯濺射SLAM

本文作者：陳淑瑜

2026-05-26 14:37

導(dǎo)語(yǔ)：本文提出的GGD -SLAM框架采用可泛化的運(yùn)動(dòng)模型，無(wú)需預(yù)定義語(yǔ)義標(biāo)注或深度輸入即可應(yīng)對(duì)動(dòng)態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。

來(lái)源：公眾號(hào)“新機(jī)器視覺(jué)”

原文鏈接：https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA

ICRA 2026丨GGD-SLAM：面向動(dòng)態(tài)環(huán)境、基于通用運(yùn)動(dòng)模型的單目3D高斯濺射SLAM

題目：GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments

作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu

來(lái)源: IEEE International Conference on Robotics and Automation(ICRA 2026)

論文鏈接: https://arxiv.org/abs/2604.12837

概述

視覺(jué)SLAM算法通過(guò)探索三維高斯點(diǎn)擴(kuò)散（3D Gaussian Splatting，3DGS）表示方法實(shí)現(xiàn)了顯著改進(jìn)，尤其在生成高保真密集地圖方面表現(xiàn)突出。然而，這些算法依賴于靜態(tài)環(huán)境假設(shè)，在動(dòng)態(tài)環(huán)境中性能會(huì)大幅下降。本文提出的GGD -SLAM框架采用可泛化的運(yùn)動(dòng)模型，無(wú)需預(yù)定義語(yǔ)義標(biāo)注或深度輸入即可應(yīng)對(duì)動(dòng)態(tài)環(huán)境中的定位與密集地圖構(gòu)建挑戰(zhàn)。具體而言，該系統(tǒng)采用先進(jìn)先出（First-In-First-Out，FIFO）隊(duì)列管理傳入幀，并通過(guò)順序注意力機(jī)制實(shí)現(xiàn)動(dòng)態(tài)語(yǔ)義特征提取；同時(shí)整合動(dòng)態(tài)特征增強(qiáng)器以分離靜態(tài)與動(dòng)態(tài)成分。此外，為最小化動(dòng)態(tài)干擾項(xiàng)對(duì)靜態(tài)成分的影響，我們提出利用靜態(tài)信息采樣填補(bǔ)被遮擋區(qū)域的方法，并設(shè)計(jì)了面向動(dòng)態(tài)環(huán)境的抗干擾結(jié)構(gòu)相似性（

Structure Similarity Index Measure，SSIM）損失函數(shù)，顯著提升了系統(tǒng)的魯棒性。基于真實(shí)世界動(dòng)態(tài)數(shù)據(jù)集的實(shí)驗(yàn)表明，所提系統(tǒng)在動(dòng)態(tài)場(chǎng)景下的相機(jī)位姿估計(jì)和密集地圖重建任務(wù)中均達(dá)到業(yè)界領(lǐng)先水平。

ICRA 2026丨GGD-SLAM：面向動(dòng)態(tài)環(huán)境、基于通用運(yùn)動(dòng)模型的單目3D高斯濺射SLAM

圖1 研究動(dòng)機(jī)：左圖：DyPho?SLAM 需要特定語(yǔ)義標(biāo)簽和深度輸入來(lái)去除動(dòng)態(tài)物體；右圖：WildGS?SLAM中的ML受限于單一場(chǎng)景的渲染效果；本文提出的GGD?SLAM引入了通用運(yùn)動(dòng)模型，無(wú)需語(yǔ)義標(biāo)簽或深度輸入，減少了對(duì)單場(chǎng)景3DGS渲染損失監(jiān)督的依賴。

研究方法

給定單目相機(jī)（內(nèi)參已知）以固定幀率拍攝、包含動(dòng)態(tài)物體的圖像序列 I={Ii}_i=1^N（I_i∈R^H×W×3），本文目標(biāo)是求解對(duì)應(yīng)的相機(jī)位姿矩陣 T={T_i}_i=1^N，并逐幀更新高斯參數(shù) G={μ_j,α_j,∑_j,c_j}_j=1^n(G)。

高斯參數(shù)由空間位置 μ_j、不透明度 α_j、協(xié)方差矩陣 ∑_j 和基于球諧函數(shù)的顏色系數(shù) c_j 共同表征。求解 T 和 G 需滿足兩個(gè)核心要求：1）最小化絕對(duì)軌跡誤差的均方根值；2）實(shí)現(xiàn)最優(yōu)的高斯渲染效果，以精準(zhǔn)表征靜態(tài)環(huán)境。

所提 GGD-SLAM 算法的整體流程通過(guò)一系列關(guān)聯(lián)模塊完成動(dòng)態(tài)環(huán)境下的定位與稠密建圖任務(wù)，整體框架如圖 2 所示。

圖 2 GGD-SLAM 算法流程圖

2.1 通用運(yùn)動(dòng)模型

本文核心創(chuàng)新在于設(shè)計(jì)適用于時(shí)序圖像序列的動(dòng)態(tài)語(yǔ)義提取通用運(yùn)動(dòng)模型，專門(mén)面向增量式 SLAM 系統(tǒng)（算法 1）。該模型無(wú)需單場(chǎng)景在線訓(xùn)練，可作為 GS-SLAM 系統(tǒng)的強(qiáng)魯棒先驗(yàn)。

1）數(shù)據(jù)預(yù)處理

輸入圖像 I_t 經(jīng)預(yù)訓(xùn)練 DINOv2 特征提取器，得到圖像特征 x_t=DINOv2(I_t)∈R^{H′×W′×C}。其中，H′、W′ 為分塊嵌入后特征圖的空間下采樣維度，C 為通道維度。

但 x_t 僅捕捉 I_t 的結(jié)構(gòu)特征與靜態(tài)語(yǔ)義信息，缺乏建模場(chǎng)景演化所需的時(shí)序動(dòng)態(tài)信息。為此，引入先進(jìn)先出隊(duì)列 Q_t，逐幀聚合時(shí)序特征用于動(dòng)態(tài)語(yǔ)義提取，更新規(guī)則如下：

隊(duì)列未滿時(shí)，在前端補(bǔ)零向量以維持時(shí)序一致性。動(dòng)態(tài)語(yǔ)義由 L 幀間時(shí)序變化決定 ——L 越大，運(yùn)動(dòng)推理的時(shí)序上下文越豐富。

2）時(shí)序注意力機(jī)制

獲取當(dāng)前幀結(jié)構(gòu)特征 x_t 與歷史特征隊(duì)列 Q_t 后，通過(guò)注意力機(jī)制融合上下文信息：

其中，Q_t∈R^{(1×H′×W′)×C}為當(dāng)前幀特征生成的查詢向量；K_t,V_t∈R^{(L×H′×W′)×C}由歷史特征生成，用于構(gòu)建時(shí)序檢索索引，實(shí)現(xiàn)跨幀特征匹配；輸出F_attn,_t∈R^{H′×W′×C}為融合時(shí)序信息的增強(qiáng)特征，用于通用運(yùn)動(dòng)語(yǔ)義分割。

為強(qiáng)化動(dòng)靜分離效果，將 F_attn,_t 輸入動(dòng)態(tài)頭與靜態(tài)頭兩個(gè)獨(dú)立分支，得到解耦特征：動(dòng)態(tài)屬性增強(qiáng)系數(shù) D∈R^{H′×W′×C}、靜態(tài)分量抑制系數(shù) S∈R^{H′×W′×C}。再通過(guò)門(mén)控注意力機(jī)制融合：

式中，⊙ 為哈達(dá)瑪積，平衡系數(shù) α 為可學(xué)習(xí)參數(shù)（初始值 0.5）。增強(qiáng)特征 F_enh,_t 與原始結(jié)構(gòu)特征 x_t 拼接后輸入前饋網(wǎng)絡(luò)，輸出低分辨率動(dòng)態(tài)概率圖 M_raw,_t∈R^H′×W′；經(jīng)雙線性插值得到全分辨率動(dòng)態(tài)概率圖 M_t∈R^H×W，像素值大小直接表示該位置為動(dòng)態(tài)區(qū)域的概率。

3）模型訓(xùn)練

為訓(xùn)練能捕捉時(shí)空特征的通用運(yùn)動(dòng)模型，基于真實(shí)動(dòng)態(tài)掩碼 M_gt,_t∈R^H×W 設(shè)計(jì)監(jiān)督損失函數(shù)：

基礎(chǔ)損失L_base：計(jì)算 M_gt,t 與 M_t 的像素級(jí)絕對(duì)誤差，保證幾何精度。
正則損失L_reg：引入二值熵懲罰項(xiàng)：

針對(duì) 0.5 附近的模糊預(yù)測(cè)，在中間值處梯度最大，推動(dòng)輸出收斂至 {0,1}。

Dice 損失 L_dice：彌補(bǔ)像素級(jí)損失對(duì)結(jié)構(gòu)完整性捕捉不足的缺陷：

概率化輸出易引入動(dòng)態(tài)關(guān)聯(lián)錯(cuò)誤，模糊邊緣會(huì)降低跟蹤精度。推理階段采用大津自適應(yīng)閾值法對(duì)概率圖二值化，得到原始掩碼 M_raw,t；再用圓盤(pán)形結(jié)構(gòu)元 K_r 做形態(tài)學(xué)膨脹，細(xì)化動(dòng)態(tài)物體邊緣，輸出通用動(dòng)態(tài)先驗(yàn)二值掩碼 M_t。

2.2 跟蹤模塊

基于現(xiàn)有研究基礎(chǔ)，引入 Metric3D-v2 輸出的尺度感知單目深度估計(jì) D_est∈R^H×W，利用其跨場(chǎng)景零樣本泛化能力提升位姿估計(jì)魯棒性。

位姿估計(jì)采用 DROID-SLAM 的稠密光束平差法（DBA）框架，構(gòu)建幀圖 G=(V,E)：V 為關(guān)鍵幀集合，E 為關(guān)鍵幀間共視約束。目標(biāo)是優(yōu)化相機(jī)位姿 T_[?]，并估計(jì)關(guān)鍵幀單目深度圖 d_[?]∈R^H×W。

動(dòng)態(tài)點(diǎn)會(huì)導(dǎo)致因子圖構(gòu)建錯(cuò)誤，降低計(jì)算效率與系統(tǒng)性能。為此，利用通用運(yùn)動(dòng)模型輸出動(dòng)態(tài)先驗(yàn)，完全剔除動(dòng)態(tài)區(qū)域殘差：提取靜態(tài)分量 S_[?]=1?M_[?]，∑_[?] 為 DROID-SLAM 基礎(chǔ)協(xié)方差權(quán)重，將動(dòng)態(tài)干擾轉(zhuǎn)化為可處理的優(yōu)化約束：

第一項(xiàng)：DROID-SLAM 單目位姿估計(jì)目標(biāo)，動(dòng)態(tài)區(qū)域殘差權(quán)重置零，排除非靜態(tài)干擾、提升效率；
第二項(xiàng)：深度監(jiān)督損失，利用神經(jīng)深度預(yù)測(cè)約束深度估計(jì)；
第三項(xiàng)：軌跡平滑正則化，懲罰相鄰幀間位姿突變。

2.3 建圖模塊

1 ）通用運(yùn)動(dòng)模型引導(dǎo)的不確定性估計(jì)

基于WildGS-SLAM的不確定性感知框架，將特征 x_t輸入淺層MLP P，預(yù)測(cè)不確定性圖 U_t=P(x_t)∈R^H×W。該方法可處理模糊干擾、提升渲染質(zhì)量，但過(guò)度依賴單場(chǎng)景3DGS渲染損失，單幀輸入易導(dǎo)致動(dòng)態(tài)誤判。

為此，融合聚合時(shí)序特征的通用運(yùn)動(dòng)模型，將其作為時(shí)序先驗(yàn)嵌入原框架：

L_3DGS：渲染圖像與輸入圖像的重建誤差，定義見(jiàn)式 (12)；
L_regU：不確定性正則項(xiàng)，L_reg_U=logU_t，防止不確定性值趨于無(wú)窮；
L_prior：先驗(yàn)?zāi)Ｐ驼`差：

式中，T_max 為動(dòng)態(tài)區(qū)域目標(biāo)不確定性閾值。該損失緩解不確定性感知方法的動(dòng)態(tài)誤判，同時(shí)兼容噪聲、光照變化等靜態(tài)干擾。

2）增量式高斯地圖構(gòu)建

獲取新關(guān)鍵幀后，增量式創(chuàng)建高斯以優(yōu)化地圖：對(duì)圖像中新觀測(cè)特征點(diǎn)，初始化高斯參數(shù) —— 顏色 c_? 取對(duì)應(yīng)像素顏色，空間位置 μ_? 由像素反投影得到，不透明度 α_? 初始化為 0.5，半徑初始化為 0.1。

當(dāng)幀中存在動(dòng)態(tài)物體時(shí)，通過(guò)動(dòng)態(tài)區(qū)域鄰域隨機(jī)采樣維持遮擋區(qū)域幾何連續(xù)性：為當(dāng)前幀靜態(tài)高斯的二維坐標(biāo) (μ_?,x,μ_?,y) 構(gòu)建 KD 樹(shù)；對(duì)動(dòng)態(tài)點(diǎn) μ_i∈M_t，查詢其 k 近鄰靜態(tài)高斯，隨機(jī)采樣鄰域內(nèi)靜態(tài)點(diǎn)，替換動(dòng)態(tài)點(diǎn)的深度與顏色屬性：

再對(duì)遮擋點(diǎn)執(zhí)行尺度擴(kuò)張與不透明度增強(qiáng)，緩解遮擋區(qū)域點(diǎn)云稀疏導(dǎo)致的優(yōu)化效率下降問(wèn)題

3）高斯參數(shù)更新

高斯地圖渲染RGB圖像流程：按視角深度對(duì)3D 高斯排序，通過(guò) α 混合投影渲染像素顏色 I_r 與深度 D_r：

通過(guò)梯度下降迭代更新高斯參數(shù)，最小化建圖損失：

L_3DGS：渲染圖像與輸入圖像、深度估計(jì)的殘差，通過(guò)不確定性圖逐元素加權(quán)：

L_iso：尺度正則項(xiàng)，抑制稀疏區(qū)域偽影；
L_ssim：傳統(tǒng)SSIM損失計(jì)算局部亮度、對(duì)比度、空間相關(guān)性，動(dòng)態(tài)場(chǎng)景中易受干擾。傳統(tǒng)方法先算SSIM 圖再剔除動(dòng)態(tài)區(qū)域，仍會(huì)殘留污染（如圖3）。本文提出動(dòng)態(tài)自適應(yīng)SSIM：用單位卷積核 w_unit 與靜態(tài)分量S_t做哈達(dá)瑪積與卷積，生成自適應(yīng)核 w_ad(O) 并統(tǒng)計(jì)有效靜態(tài)像素?cái)?shù) N^ad(O)，僅在純靜態(tài)區(qū)域計(jì)算 SSIM：

對(duì)比度與空間相關(guān)性計(jì)算同理，最終得到純凈的動(dòng)態(tài)自適應(yīng) SSIM 圖。

圖 3 動(dòng)態(tài)自適應(yīng) SSIM 示意圖

實(shí)驗(yàn)

3.1 跟蹤性能評(píng)估

為驗(yàn)證本文提出的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò)，以 fr3/w/half 序列為例進(jìn)行可視化（圖4）。基于單幀圖像的特定標(biāo)簽分割在小目標(biāo)、快速運(yùn)動(dòng)模糊物體、相機(jī)大幅運(yùn)動(dòng)場(chǎng)景下易出現(xiàn)誤分類；WildGS?SLAM 的不確定性感知方法在背景區(qū)域極易誤判，導(dǎo)致有效圖像信息不足，進(jìn)而降低定位精度與背景重建質(zhì)量。相比之下，本文的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò)可基于歷史幀提取運(yùn)動(dòng)物體語(yǔ)義，提取效果優(yōu)異。僅使用基礎(chǔ)損失進(jìn)行像素級(jí)學(xué)習(xí)會(huì)限制結(jié)構(gòu)特征保留，產(chǎn)生明顯噪聲；在第 800 幀中，椅子在單幀下看似靜止，但在長(zhǎng)期歷史觀測(cè)中存在運(yùn)動(dòng)，模型可準(zhǔn)確將其判定為動(dòng)態(tài)。

圖 4：不同動(dòng)態(tài)提取器在 fr3/w/half 序列上的定性結(jié)果

表 1：在 TUM 與 Bonn 挑戰(zhàn)性數(shù)據(jù)集動(dòng)態(tài)場(chǎng)景下的相機(jī)跟蹤結(jié)果

表1給出 TUM 與波恩動(dòng)態(tài)場(chǎng)景下的相機(jī)跟蹤結(jié)果。基于 RGBD 的方法因深度傳感器提供精確絕對(duì)尺度，定位精度表現(xiàn)較強(qiáng)。盡管 Dy3DGS?SLAM、WildGS?SLAM 等單目動(dòng)態(tài) SLAM 系統(tǒng)具備動(dòng)態(tài)物體處理能力，但因缺乏精準(zhǔn)的動(dòng)態(tài)干擾識(shí)別方法、引入錯(cuò)誤數(shù)據(jù)關(guān)聯(lián)，性能仍低于本文方法。本文方法結(jié)合高效的、面向增量式 SLAM 輸入的通用運(yùn)動(dòng)模型，在 fr3/w/half、bonn/crowd2 等高動(dòng)態(tài)序列中實(shí)現(xiàn)了超越 RGBD 方法的跟蹤精度。在 TUM 與波恩數(shù)據(jù)集上的消融實(shí)驗(yàn)（表2）驗(yàn)證了各模塊的有效性：通用先驗(yàn)、大津二值化、平滑項(xiàng)均能提升系統(tǒng)魯棒性。

表 2：在 Bonn RGB?D 動(dòng)態(tài)數(shù)據(jù)集上的消融實(shí)驗(yàn)

3.2 建圖性能評(píng)估

將本文方法與開(kāi)源 3DGS SLAM 算法對(duì)比，評(píng)估建圖能力。如圖 5 所示：DG?SLAM、DyPho?SLAM 需要語(yǔ)義標(biāo)簽與深度輸入；MonoGS、Splatam 在動(dòng)態(tài)干擾下性能嚴(yán)重下降；WildGS?SLAM 依賴 3DGS 渲染，相機(jī)大幅運(yùn)動(dòng)后背景渲染效果差，導(dǎo)致動(dòng)態(tài)物體誤判、系統(tǒng)性能下降，且邊緣物體遮擋去除不徹底，殘留偽影。本文 GGD?SLAM 可有效消除動(dòng)態(tài)干擾，同時(shí)保持高質(zhì)量背景渲染。

圖 5：當(dāng)前主流高斯濺射 SLAM 方法的渲染結(jié)果對(duì)比

如表3 所示，本文方法在 TUM、波恩動(dòng)態(tài)序列上，單目 3DGS 類方法中取得最優(yōu)性能。針對(duì)干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復(fù)的消融實(shí)驗(yàn)（表4）驗(yàn)證了建圖模塊的有效性。

表 3：在 TUM 與 Bonn 動(dòng)態(tài)數(shù)據(jù)集上的建圖結(jié)果

表 4：干擾自適應(yīng) SSIM 與靜態(tài)高斯 KD?Tree 遮擋修復(fù)方法的消融實(shí)驗(yàn)

3.3 更通用場(chǎng)景下的驗(yàn)證

在更通用的 Wild?SLAM 數(shù)據(jù)集上驗(yàn)證本文的通用動(dòng)態(tài)語(yǔ)義提取網(wǎng)絡(luò)（圖 6）。模型成功分割各類運(yùn)動(dòng)物體，引導(dǎo)不確定性生成，實(shí)現(xiàn)高質(zhì)量渲染。與 TUM、波恩數(shù)據(jù)集相比，Wild?SLAM 數(shù)據(jù)集圖像分辨率更高、相機(jī)運(yùn)動(dòng)更平緩，3DGS 渲染質(zhì)量更易達(dá)到較高水平。在此條件下，不確定性感知機(jī)制可有效適配，GGD?SLAM 與 WildGS?SLAM 均取得極高性能。

圖 6：本文 GGD?SLAM 在 Wild?SLAM 數(shù)據(jù)集上的效果展示

結(jié)論

本文提出了GGD?SLAM，一種具備泛化能力且魯棒的框架，可在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)定位與真實(shí)感稠密建圖。

為解決動(dòng)態(tài)目標(biāo)剔除難題，本文提出一種泛化型動(dòng)態(tài)提取器，該方法利用歷史幀隊(duì)列上的注意力機(jī)制提取動(dòng)態(tài)語(yǔ)義。此外，本方法還與背景一致性建圖流程相結(jié)合，以最小化動(dòng)態(tài)目標(biāo)對(duì)靜態(tài)分量的影響。

大量實(shí)驗(yàn)表明，GGD?SLAM 在真實(shí)感建圖方面顯著優(yōu)于現(xiàn)有 SOTA SLAM 方法。

未來(lái)工作中，我們旨在實(shí)現(xiàn)動(dòng)態(tài)目標(biāo)運(yùn)動(dòng)的實(shí)時(shí)重建與完全遮擋區(qū)域的修復(fù)，同時(shí)保證靜態(tài)場(chǎng)景的穩(wěn)定性。

0人收藏

相關(guān)文章

專題

ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門(mén)文章