• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    機器人 正文
    發私信給陳淑瑜
    發送

    0

    ICRA 2026|清華大學&高德聯合發布SSM-VLA:"空間感知+動態預判",讓機器人"看見"物理世界

    本文作者: 陳淑瑜   2026-05-25 13:53 專題:ICRA 國際機器人與自動化會議
    導語:SSM-VLA(Seeing Space and Motion),通過創新的"遠視潛動作建模"技術,讓機器人首次具備了幾何感知的場景理解能力和多尺度時序建模能力
    來源:公眾號“高德技術”

    原文鏈接:https://mp.weixin.qq.com/s/qyxOyHNdHC6C11584aeRfA


    論文主題|Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA

    論文鏈接|https://arxiv.org/abs/2509.26251


    在機器人"大腦"的進化之路上,如何讓AI真正理解三維空間的結構關系,并預判物體的運動軌跡,一直是困擾業界的難題。近日,清華大學深圳國際研究生院阿里巴巴集團旗下高德地圖聯合研究團隊發布了一項突破性成果——SSM-VLA(Seeing Space and Motion),通過創新的"遠視潛動作建模"技術,讓機器人首次具備了幾何感知的場景理解能力多尺度時序建模能力,在多項機器人操控基準測試中創下 SOTA 成績。


    關鍵挑戰:為什么機器人"看不準、想不遠"?


    ICRA 2026|清華大學&高德聯合發布SSM-VLA:

    如果把機器人比作廚師,現有的VLA模型就像一位"色盲且健忘"的學徒:它能讀出菜譜(語言理解),卻分不清食材的遠近深淺(空間感知弱);剛看一眼鍋里的狀態就忘了(時序建模差),導致動作斷斷續續、缺乏連貫性。

    具體而言,當前主流方法存在兩大結構性缺陷:

    • 瓶頸一:空間感知"浮于表面"

    現有VLA模型多采用端到端訓練的RGB編碼器,其視覺表征偏向顏色、紋理等表層語義,缺乏對物體關系、場景布局、深度信息的顯式建模。這就像讓一位平面設計師去當建筑師——審美在線,但看不懂施工圖。結果是:機器人能認出"紅色積木",卻判斷不好"它離我有多遠"、"該從哪個角度抓取"。

    • 瓶頸二:時序建模"鼠目寸光"

    絕大多數潛在動作模型(LAM)僅輸入兩幀圖像(當前幀+目標幀)來預測動作,這種"稀疏采樣"方式丟失了大量動態信息:物體的運動趨勢、接觸瞬間的力學變化、長程任務的階段性規劃。就像僅看一張起點和終點的照片,難以推斷中間經歷了什么,導致動作預測不穩定、物理合理性差。


    這兩大缺陷相互交織:缺乏幾何感知導致動作在3D空間中"對不準",缺乏時序建模導致動作在時間維度上"接不上"。機器人看似在執行任務,實則在"盲人摸象"。


    核心貢獻:SSM-VLA的三大創新設計

    面對上述挑戰,研究團隊從空間編碼、時序建模、推理范式三個維度進行系統性重構,提出SSM-VLA框架:


    1. Farsighted-LAM:看得深、看得遠的潛在動作模型

    • 幾何感知空間編碼:引入凍結的DINOv2編碼器,提取富含結構先驗的視覺特征(空間布局、隱式深度、物體關系),讓潛在動作扎根于三維物理空間

    • 多幀時序建模:突破傳統兩幀限制,同時處理當前幀+未來N個關鍵幀,捕捉從細微操作到長程規劃的完整動態譜系

    • RGB-D聯合監督:解碼器同時重建未來幀的RGB和深度圖,確保潛在動作既包含語義內容(外觀),也包含幾何結構(空間)

    2. 視覺思維鏈(Visual Chain-of-Thought):先想象、再行動

    受人類"三思而后行"的認知模式啟發,SSM-VLA在輸出最終動作前,先顯式預測未來視覺狀態(RGB+深度)。這種"想象-推理-執行"的級聯范式,不僅增強了模型的時空理解能力,更提供了可解釋的中間表征——你可以直觀地看到機器人"腦海中的畫面"是否與物理規律一致。


    3. 多模態協同注意力:三階段漸進式推理

    通過精心設計的注意力掩碼機制,SSM-VLA在一個統一Transformer內實現三階段協同:

    • 階段1(視覺預測):基于歷史觀測和指令,生成下一幀視覺狀態

    • 階段2(潛在動作規劃):基于預測幀,生成長程潛在動作序列

    • 階段3(動作執行):融合全部信息,輸出最終機器人動作

    這種"雙向+單向+因果"的混合注意力結構,既保證了信息流的完整性,又維持了時序因果性。


    技術架構詳解

    • Farsighted-LAM:如何學習"空間-時序"統一的潛在動作?

      ICRA 2026|清華大學&高德聯合發布SSM-VLA:

    Farsighted-LAM架構與 Latent action 可視化


    編碼器處理DINOv2特征序列,預測離散潛在動作;解碼器利用當前幀和潛在動作重建未來幀的RGB與深度。


    編碼器設計

    • 輸入:當前幀RGB-D + 未來N幀RGB

    • 特征提取:凍結DINOv2編碼器提取幾何-語義豐富的視覺特征

    • 時空Transformer:通過可學習的潛在動作查詢(Latent Action Queries),自回歸地生成未來N個時間步的連續潛在向量

    • 向量量化:通過最近鄰查找映射到離散碼本,形成緊湊的潛在動作表征


    解碼器設計

    • 輸入:當前幀RGB-D + 離散潛在動作

    • 約束條件:禁止訪問中間幀,強制潛在動作承載從當前到未來的全部空間-時序信息

    • 輸出:重建未來幀的RGB和深度圖

    • 損失函數:L2+LPIPS光度損失 + 梯度感知深度損失,確保外觀真實且幾何一致

    • SSM-VLA三階段級聯策略

    ICRA 2026|清華大學&高德聯合發布SSM-VLA:

    SSM-VLA三階段級聯架構


    Stage 1預測視覺狀態,Stage 2推斷潛在動作,Stage 3生成最終動作。


    Stage 1:視覺思維鏈預測

    • 輸入:歷史觀測(t-H到t)+ 語言指令

    • 輸出:下一幀視覺狀態(RGB+深度)

    • 監督:與真實下一幀計算重建損失

    • 深度處理:對于無傳感器深度數據,通過SfM稀疏對齊生成偽深度標簽

    Stage 2:遠視潛在動作推斷

    • 輸入:歷史上下文 + 預測幀特征

    • 輸出:未來N步的潛在動作序列

    • 監督:與預訓練Farsighted-LAM編碼器生成的ground-truth潛在動作計算交叉熵損失

    Stage 3:動作生成

    • 輸入:歷史上下文 + 預測幀 + 完整潛在動作計劃

    • 輸出:機器人動作

    • 實現:基于條件流匹配(Flow Matching)的擴散策略,DiT網絡作為去噪器


    實驗結果:全面刷新SOTA,零樣本泛化能力驚艷

    • 仿真環境:CALVIN基準測試領跑

      在最具挑戰性的CALVIN ABC-D基準上(訓練于A/B/C環境,零樣本測試于未見過的D環境,完成1000條指令鏈、每條5個連續任務),SSM-VLA展現出強大的多任務學習與泛化能力:

      ICRA 2026|清華大學&高德聯合發布SSM-VLA:


      ICRA 2026|清華大學&高德聯合發布SSM-VLA:

      SSM-VLA以平均4.38個連續任務的完成長度,超越所有對比方法,創下新紀錄。


    • 真實世界:AgileX Piper機器人驗證

      ICRA 2026|清華大學&高德聯合發布SSM-VLA:

    研究團隊還在真實場景中使用AgileX Piper機械臂進行驗證,任務為"將粉色玩具放入盒子"。模型先在Open-X-Embodiment等大規模數據集上預訓練,僅通過50條人類演示微調即成功部署。面對雜亂、非結構化的真實環境,機器人展現出優異的泛化能力。


    為證明各模塊的有效性,研究團隊進行了嚴謹的消融分析:

     "遠視"結構的價值:使用3幀上下文(LAM 3-frame)相比單幀(LAM 1-frame)平均任務鏈長度提升0.1,相比移除LAM(w/o LAM)提升0.21,證明多幀觀測對平滑、物理合理的動作空間學習至關重要;

    多模態協同注意力機制:相比簡單的因果注意力,結構化注意力機制將平均完成長度從3.70大幅提升至4.38,凸顯了其整合過去、現在與未來預測信息的能力;

     幾何先驗的貢獻:引入深度監督后,平均完成長度從4.27提升至4.38,驗證了顯式3D幾何信息對空間關系推理與抓取姿態估計的積極作用。


    結語

    從"看見"到"看懂",從"執行"到"預判",SSM-VLA代表了VLA模型向空間智能時序智能深度融合的重要邁進。正如論文通訊作者黃汝琪教授所言:"當機器人真正理解空間結構、預判運動趨勢,它們才能從'按圖索驥'的工具,進化為'見微知著'的伙伴。"




    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 人妻少妇精品| 日韩亚洲精品国产第二页| 久久婷婷综合色丁香五月| 日韩精品网站| 偷拍精品一区二区三区| 成在人线av无码免费| 久久久精品熟妇丰满人妻99| 中文字幕人妻系列一区尤物视频| 囯产精品无码va一区二区| 99在线视频免费观看| 国模gogo啪啪中国人体| 精品一区二区三区视频在线| 国产成人综合亚洲欧洲色就色| 无码毛片一区二区本码视频| 丁香五月婷激情综合第九色| 人妻无码视频一区二区三区| 色爱无码av综合区| 中文字幕人妻在线中文乱码怎么解决| 国产一区| 欧美第3页| 亚洲中文字幕无码爆乳| 国产精品福利一区二区久久| 日韩视频网址| 成人午夜av在线播放| 日韩一av| 四川少妇大战4黑人| 免费无码高H视频在线观看| 狠狠色婷婷久久综合频道日韩| 亚洲东京色一区二区三区| 青青草av| 国产国语一级毛片| chinese国产在线视频| 精品少妇av蜜臀av| 99午夜精品亚洲一区二区| 中文无码日| 国产一级r片内射免费视频| 精品久久久噜噜噜久久| 人妻综合页| 绯色蜜臀av一区二区不卡| 五月天成人社区| 日韩精品人妻中文字幕无码流出|