ICRA 2026 | DiffuDepGrasp：擴散模型助力Sim2Real機器人抓取

本文作者：陳淑瑜

2026-05-27 18:46

導(dǎo)語：該框架的核心創(chuàng)新在于設(shè)計了“擴散深度生成器”，能夠在不引入部署端額外推理延遲的前提下，高效模擬真實的物理傳感器噪聲

來源：公眾號“具身智能之心”

原文鏈接：https://mp.weixin.qq.com/s/_1gQE9UMwLHh-sm1xR_Hbg?scene=1&click_id=118

近年來，基于深度強化學習和模仿學習的端到端機器視覺控制策略展現(xiàn)出巨大的應(yīng)用潛力。然而，受限于真實深度傳感器固有的物理噪聲與幾何信息缺失，仿真策略向現(xiàn)實世界（Sim2Real）的直接遷移始終面臨著巨大的鴻溝。

針對這一挑戰(zhàn)，我們提出了一種面向零樣本Sim2Real遷移的機器人抓取框架 DiffuDepGrasp。該框架的核心創(chuàng)新在于設(shè)計了“擴散深度生成器”，能夠在不引入部署端額外推理延遲的前提下，高效模擬真實的物理傳感器噪聲，從而使完全在仿真中訓(xùn)練的策略，能夠在真實的復(fù)雜抓取任務(wù)中實現(xiàn)高達 95.7% 的零樣本遷移成功率。

目前，相關(guān)論文“DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping”已被機器人領(lǐng)域頂級會議International Conference on Robotics and Automation（ICRA 2026）接收。

論文鏈接：https://arxiv.org/pdf/2511.12912

項目主頁：https://diffudepgrasp.github.io/

研究背景

機器人抓取決策的魯棒性高度依賴于對環(huán)境空間幾何的精準感知。深度圖因其天然的幾何對齊特性，比傳統(tǒng)RGB 圖像對光照和紋理變化更具魯棒性，已成為驅(qū)動端到端視覺控制策略的核心范式。然而，在通往通用機器人操作的道路上，Sim2Real Gap依然是制約策略從仿真走向現(xiàn)實的關(guān)鍵瓶頸。

在仿真環(huán)境中，深度圖往往是理想且完美的幾何投影。但在現(xiàn)實世界中，受傳感器特性及環(huán)境噪聲影響，真實深度圖往往充斥著嚴重的空洞和隨機偽影。這種感知層面的失真，會導(dǎo)致在仿真中表現(xiàn)卓越的策略在現(xiàn)實部署時徹底失效。

目前主流的解決路徑主要面臨數(shù)據(jù)效率與部署復(fù)雜性的雙重挑戰(zhàn)：

訓(xùn)練端增強的局限性：基于規(guī)則或隨機生成的程序化噪聲(圖1: c)往往過于理想化，難以捕捉復(fù)雜物理環(huán)境下的長尾分布；而基于學習的映射方法則過度依賴大規(guī)模、高成本的成對實測數(shù)據(jù)集，面臨嚴重的數(shù)據(jù)稀缺挑戰(zhàn)。
部署端開銷的桎梏：深度圖修復(fù)(圖1: h)或利用視覺基礎(chǔ)模型進行提取中間表征(圖1: d, i)，雖能一定程度縮小域偏差，但其額外的計算開銷削減了機器人高頻閉環(huán)控制的響應(yīng)速度，帶來一定的計算延遲。

為系統(tǒng)性地應(yīng)對上述挑戰(zhàn)，我們提出了 DiffuDepGrasp，一個面向深度感知的機器人抓取零樣本Sim2Real遷移框架。為解決數(shù)據(jù)稀缺問題，我們訓(xùn)練了一個以深度基礎(chǔ)模型的輸出作為條件引導(dǎo)的條件擴散模型，該模型僅需少量非成對真實RGB-D數(shù)據(jù)即可學習復(fù)雜噪聲分布，顯著降低數(shù)據(jù)依賴性與采集成本。

為模擬真實傳感器噪聲的同時保持完美的幾何精度，我們引入了“噪聲嫁接”模塊，將學到的噪聲模式與仿真器提供的真值深度相結(jié)合。該框架的DiffuDepGrasp能夠避免在策略部署時引入額外的計算延遲，并降低對高性能硬件的依賴，在利用仿真離線數(shù)據(jù)訓(xùn)練得到的策略能夠在部署時，無需對深度數(shù)據(jù)進行額外的任何處理。

我們構(gòu)建了完整師生蒸餾流程，利用生成的高保真數(shù)據(jù)訓(xùn)練視覺策略，通過廣泛的真實世界抓取實驗，在下游任務(wù)中驗證了我們框架的有效性，證明了其強大的零樣本遷移和泛化能力。

ICRA 2026 | DiffuDepGrasp：擴散模型助力Sim2Real機器人抓取

圖1: 不同 Sim2Real 遷移基線下的深度視覺觀測對比

技術(shù)方案

圖2: DiffuDepGrasp方法框架

DiffuDepGrasp的核心在于解耦幾何精度與視覺真實度，整體框架（如圖2所示）包含四個關(guān)鍵階段：

Stage 1: 教師策略訓(xùn)練

為了獲取用于模仿學習的高質(zhì)量專家數(shù)據(jù)，我們首先在仿真環(huán)境中訓(xùn)練了一個擁有特權(quán)狀態(tài)信息的教師策略。我們將該學習過程建模為一個馬爾可夫決策過程(MDP)，其中教師策略π θ (als)學習從精確的環(huán)境與機器人狀態(tài)到底層動作指令的直接映射。通過在Isaac Gym中利用近端策略優(yōu)化(PPO)算法進行大規(guī)模并行訓(xùn)練，該策略能夠探索并學習高效且魯棒的抓取行為。

Stage 2: 擴散深度生成器

為了學習真實世界深度傳感器的復(fù)雜噪聲分布，我們設(shè)計了條件擴散生成器 Diffusion Depth Generator (DDG)，該階段的核心任務(wù)是在高質(zhì)量幾何先驗的引導(dǎo)下，從隨機噪聲中生成具有真實傳感器采集的深度圖相同特性的偽影模式。擴散深度生成器是跨越Sim2Real Gap的核心組件，具體包含兩個協(xié)同模塊：

擴散深度模塊：利用Video Depth Anything 模型提取時間一致性的幾何先驗，引導(dǎo)條件擴散模型學習真實 RGB-D 數(shù)據(jù)中的傳感器噪聲分布。
噪聲嫁接模塊：為了防止擴散模型破壞絕對幾何精度，該模塊通過生成掩碼，將學到的逼真噪點“嫁接”到完美的仿真深度圖底層上，實現(xiàn)了物理精準與視覺逼真的統(tǒng)一。

Stage 3: 學生策略蒸餾

為了實現(xiàn)純視覺閉環(huán)部署，我們將專家知識蒸餾給僅依賴視覺與機器人本體狀態(tài)的學生策略。首先，利用Diffusion Depth Generator將仿真收集到的海量專家軌跡轉(zhuǎn)化為帶有高保真噪聲的深度數(shù)據(jù) ；隨后，學生網(wǎng)絡(luò)利用預(yù)訓(xùn)練的 ResNet-18 提取堆疊深度圖的視覺特征，并與 MLP 編碼的本體關(guān)節(jié)角度進行拼接；最終，基于 Diffusion Policy 的模仿學習范式，學生策略學會了在噪聲干擾下穩(wěn)定預(yù)測專家級的平滑動作。

Stage 4: 零樣本 Sim2Real 部署

訓(xùn)練后的學生策略直接部署于機械臂上，輸入原始的真實深度圖即可實現(xiàn)閉環(huán)抓取，無需任何在線預(yù)處理計算開銷。

實驗驗證

為全面驗證 DiffuDepGrasp 框架的有效性與魯棒性，研究團隊開展了從Diffusion Depth Generator深度噪聲建模能力到端到端 Sim2Real 遷移的系統(tǒng)性評估，在 Isaac Gym 仿真環(huán)境與部署了 Franka Emika Panda 機械臂（配備 UMI 并行夾爪與 RealSense D455 深度相機）的真實閉環(huán)控制系統(tǒng)中進行了詳盡的實驗任務(wù)測試。

高質(zhì)量的數(shù)據(jù)生成能力

在視覺可視化結(jié)果中（如圖3所示），Diffusion Depth Generator生成的深度圖能夠生成因傳感器特性導(dǎo)致的空洞空間分布以及物體和夾爪邊緣處的復(fù)雜物理噪聲紋理。

圖3: DiffuDepGrasp 深度噪聲生成效果可視化

特征空間定性評估

為直觀呈現(xiàn)不同數(shù)據(jù)分布的特征空間關(guān)系，我們采用t-SNE對仿真和真實環(huán)境各8000幀深度數(shù)據(jù)進行降維可視化。如圖4所示，Diffusion Depth Generator生成的數(shù)據(jù)分布與真實傳感器數(shù)據(jù)實現(xiàn)了高度重合，大幅減小了仿真與現(xiàn)實的深度域偏差。

圖4: 特征空間t-SNE可視化

生成能力定量評估

為定量評估不同基線生成深度圖的真實性，我們采用兩種廣泛應(yīng)用的分布度量指標：FID與KID。分值越低，表明數(shù)據(jù)分布相似度越高，即生成圖像在視覺質(zhì)量與多樣性維度更逼近真實數(shù)據(jù)。如表1所示，我們的Diffusion Depth Generator取得了最低的 FID (87.01) 和 KID (7.09) 分數(shù)。