Goal-VLA——圖像生成式VLM化身「世界模型」，實現零樣本機器人操作 | ICRA 2026

本文作者：陳淑瑜

2026-04-24 15:41

導語：新加坡國立大學邵林團隊提出了Goal-VLA，創(chuàng)新性地將圖像生成式VLM（視覺語言模型）作為「以物體為中心的世界模型」，實現零樣本機器人操作

一、研究背景

視覺-語言-動作（VLA）模型是當前具身智能的主流架構，但主要分為兩大范式，各自面臨根本性局限：端到端VLA模型（如RT-2、OpenVLA）嚴重依賴海量的「指令-視覺-動作」成對數據進行訓練，數據獲取成本極高且泛化能力有限；分層模型雖通過中間目標表示連接高層語義與底層動作，但中間目標通常需要3D點云等精確幾何輸入，在開放環(huán)境中難以獲取。

如何在不依賴任何任務特定微調和成對動作數據的情況下，讓機器人理解語言指令并執(zhí)行復雜的操控任務，成為具身智能領域亟待突破的核心挑戰(zhàn)。

新加坡國立大學邵林團隊提出了Goal-VLA，創(chuàng)新性地將圖像生成式VLM（視覺語言模型）作為「以物體為中心的世界模型」，通過物體目標狀態(tài)表示來連接高層語義推理與底層動作控制，僅需自然語言指令和單視角RGB-D圖像即可實現零樣本機器人操作。

二、核心方法

Goal-VLA的核心設計是一個解耦式分層框架，將機器人操作分解為目標推理和動作執(zhí)行兩個獨立階段。

第一階段：目標狀態(tài)推理（Goal State Inference）

利用文本VLM（如GPT-4V）對自然語言指令進行語義豐富和場景理解，構建詳細的物體目標狀態(tài)描述。隨后調用圖像生成式VLM（如DALL-E 3、Stable Diffusion）根據豐富的提示詞生成目標場景圖像。生成的圖像直觀地展示了任務完成后物體應處的狀態(tài)，作為「以物體為中心的世界模型」的輸出，無需任何3D幾何信息。

第二階段：空間基準計算（Spatial Grounding）

將生成的目標圖像與當前觀測圖像進行像素級語義特征匹配，結合深度圖信息，通過特征對應關系求解從當前狀態(tài)到目標狀態(tài)的3D變換矩陣（位姿增量）。這一步驟將2D視覺推理轉化為3D空間操作指令。

第三階段：底層策略執(zhí)行（Low-level Policy）

根據計算出的目標位姿，生成無碰撞的運動軌跡并驅動機械臂執(zhí)行。底層策略可復用現有的運動規(guī)劃算法，無需額外訓練。

核心創(chuàng)新：合成-反思迭代機制

將生成的虛擬目標圖像疊加到真實場景中進行視覺審查——檢查目標位姿是否物理可行（如是否超出桌面范圍、是否與其他物體碰撞）。若不可行，則自動修正描述并重新生成，形成「合成-反思」的閉環(huán)迭代。消融實驗顯示該機制將基礎成功率從40.0%大幅提升至88.8%。 Goal-VLA——圖像生成式VLM化身「世界模型」，實現零樣本機器人操作 | ICRA 2026

三、亮點總結

亮點一：無需任何任務特定微調，真正的零樣本泛化

Goal-VLA在無需針對特定任務進行任何微調、無需任何成對動作數據的情況下，實現了強大的機器人操控能力。在RLBench仿真環(huán)境的59個任務上，平均成功率達59.9%，顯著優(yōu)于OpenVLA（37.6%）、Pi0（48.9%）、MOKA（37.5%）等需要大量數據訓練的基線方法。

亮點二：真實機器人上的卓越表現

在真實的UFACTORY X-ARM 7機械臂上，Goal-VLA實現了60%的平均成功率，展示了從仿真到真實的良好遷移能力?？缥矬w、跨環(huán)境、跨任務的泛化測試均表現優(yōu)異，證明了其作為通用機器人操作框架的潛力。

亮點三：圖像生成VLM作為世界模型的新范式

Goal-VLA首次系統(tǒng)性地驗證了圖像生成式VLM可以作為機器人操作中的「世界模型」——通過生成目標場景圖像來預測任務完成后的狀態(tài)，替代了傳統(tǒng)方法中昂貴的3D目標表示。這一范式創(chuàng)新大幅降低了VLA模型的數據需求，為具身智能的普惠化發(fā)展開辟了新路徑。

──────────────────────────────────────────

上述內容包含AI輔助生成，更詳細信息參見兩個鏈接

原文鏈接：https://arxiv.org/abs/2506.23919

解讀來源：https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2

【封面圖片來源：網站名WXRedian，所有者：具身智能之心】

0人收藏