ICRA 2026｜清華大學&高德聯合發布SSM-VLA："空間感知+動態預判"，讓機器人"看見"物理世界

本文作者：陳淑瑜

2026-05-25 13:53

導語：SSM-VLA（Seeing Space and Motion），通過創新的"遠視潛動作建模"技術，讓機器人首次具備了幾何感知的場景理解能力和多尺度時序建模能力

來源：公眾號“高德技術”

原文鏈接：https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA

論文主題｜Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA

在機器人"大腦"的進化之路上，如何讓AI真正理解三維空間的結構關系，并預判物體的運動軌跡，一直是困擾業界的難題。近日，清華大學深圳國際研究生院與阿里巴巴集團旗下高德地圖聯合研究團隊發布了一項突破性成果——SSM-VLA（Seeing Space and Motion），通過創新的"遠視潛動作建模"技術，讓機器人首次具備了幾何感知的場景理解能力和多尺度時序建模能力，在多項機器人操控基準測試中創下 SOTA 成績。

關鍵挑戰：為什么機器人"看不準、想不遠"？

如果把機器人比作廚師，現有的VLA模型就像一位"色盲且健忘"的學徒：它能讀出菜譜（語言理解），卻分不清食材的遠近深淺（空間感知弱）；剛看一眼鍋里的狀態就忘了（時序建模差），導致動作斷斷續續、缺乏連貫性。

具體而言，當前主流方法存在兩大結構性缺陷：

瓶頸一：空間感知"浮于表面"

現有VLA模型多采用端到端訓練的RGB編碼器，其視覺表征偏向顏色、紋理等表層語義，缺乏對物體關系、場景布局、深度信息的顯式建模。這就像讓一位平面設計師去當建筑師——審美在線，但看不懂施工圖。結果是：機器人能認出"紅色積木"，卻判斷不好"它離我有多遠"、"該從哪個角度抓取"。

瓶頸二：時序建模"鼠目寸光"

絕大多數潛在動作模型（LAM）僅輸入兩幀圖像（當前幀+目標幀）來預測動作，這種"稀疏采樣"方式丟失了大量動態信息：物體的運動趨勢、接觸瞬間的力學變化、長程任務的階段性規劃。就像僅看一張起點和終點的照片，難以推斷中間經歷了什么，導致動作預測不穩定、物理合理性差。

這兩大缺陷相互交織：缺乏幾何感知導致動作在3D空間中"對不準"，缺乏時序建模導致動作在時間維度上"接不上"。機器人看似在執行任務，實則在"盲人摸象"。

核心貢獻：SSM-VLA的三大創新設計

面對上述挑戰，研究團隊從空間編碼、時序建模、推理范式三個維度進行系統性重構，提出SSM-VLA框架：

1. Farsighted-LAM：看得深、看得遠的潛在動作模型

幾何感知空間編碼：引入凍結的DINOv2編碼器，提取富含結構先驗的視覺特征（空間布局、隱式深度、物體關系），讓潛在動作扎根于三維物理空間
多幀時序建模：突破傳統兩幀限制，同時處理當前幀+未來N個關鍵幀，捕捉從細微操作到長程規劃的完整動態譜系
RGB-D聯合監督：解碼器同時重建未來幀的RGB和深度圖，確保潛在動作既包含語義內容（外觀），也包含幾何結構（空間）

2. 視覺思維鏈（Visual Chain-of-Thought）：先想象、再行動

受人類"三思而后行"的認知模式啟發，SSM-VLA在輸出最終動作前，先顯式預測未來視覺狀態（RGB+深度）。這種"想象-推理-執行"的級聯范式，不僅增強了模型的時空理解能力，更提供了可解釋的中間表征——你可以直觀地看到機器人"腦海中的畫面"是否與物理規律一致。

3. 多模態協同注意力：三階段漸進式推理

通過精心設計的注意力掩碼機制，SSM-VLA在一個統一Transformer內實現三階段協同：

階段1（視覺預測）：基于歷史觀測和指令，生成下一幀視覺狀態
階段2（潛在動作規劃）：基于預測幀，生成長程潛在動作序列
階段3（動作執行）：融合全部信息，輸出最終機器人動作

這種"雙向+單向+因果"的混合注意力結構，既保證了信息流的完整性，又維持了時序因果性。

技術架構詳解

Farsighted-LAM：如何學習"空間-時序"統一的潛在動作？

Farsighted-LAM架構與 Latent action 可視化

編碼器處理DINOv2特征序列，預測離散潛在動作；解碼器利用當前幀和潛在動作重建未來幀的RGB與深度。

編碼器設計：

輸入：當前幀RGB-D + 未來N幀RGB
特征提取：凍結DINOv2編碼器提取幾何-語義豐富的視覺特征
時空Transformer：通過可學習的潛在動作查詢（Latent Action Queries），自回歸地生成未來N個時間步的連續潛在向量
向量量化：通過最近鄰查找映射到離散碼本，形成緊湊的潛在動作表征

解碼器設計：

輸入：當前幀RGB-D + 離散潛在動作
約束條件：禁止訪問中間幀，強制潛在動作承載從當前到未來的全部空間-時序信息
輸出：重建未來幀的RGB和深度圖
損失函數：L2+LPIPS光度損失 + 梯度感知深度損失，確保外觀真實且幾何一致

SSM-VLA三階段級聯策略

SSM-VLA三階段級聯架構

Stage 1預測視覺狀態，Stage 2推斷潛在動作，Stage 3生成最終動作。

Stage 1：視覺思維鏈預測

輸入：歷史觀測（t-H到t）+ 語言指令
輸出：下一幀視覺狀態（RGB+深度）
監督：與真實下一幀計算重建損失
深度處理：對于無傳感器深度數據，通過SfM稀疏對齊生成偽深度標簽

Stage 2：遠視潛在動作推斷

輸入：歷史上下文 + 預測幀特征
輸出：未來N步的潛在動作序列
監督：與預訓練Farsighted-LAM編碼器生成的ground-truth潛在動作計算交叉熵損失

Stage 3：動作生成

輸入：歷史上下文 + 預測幀 + 完整潛在動作計劃
輸出：機器人動作
實現：基于條件流匹配（Flow Matching）的擴散策略，DiT網絡作為去噪器

實驗結果：全面刷新SOTA，零樣本泛化能力驚艷

仿真環境：CALVIN基準測試領跑
在最具挑戰性的CALVIN ABC-D基準上（訓練于A/B/C環境，零樣本測試于未見過的D環境，完成1000條指令鏈、每條5個連續任務），SSM-VLA展現出強大的多任務學習與泛化能力：

SSM-VLA以平均4.38個連續任務的完成長度，超越所有對比方法，創下新紀錄。
真實世界：AgileX Piper機器人驗證