• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    機器人 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    Goal-VLA——圖像生成式VLM化身「世界模型」,實現零樣本機器人操作 | ICRA 2026

    本文作者: 陳淑瑜   2026-04-24 15:41 專題:ICRA 國際機器人與自動化會議
    導語:新加坡國立大學邵林團隊提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,實現零樣本機器人操作

    一、研究背景  

    視覺-語言-動作(VLA)模型是當前具身智能的主流架構,但主要分為兩大范式,各自面臨根本性局限:端到端VLA模型(如RT-2、OpenVLA)嚴重依賴海量的「指令-視覺-動作」成對數據進行訓練,數據獲取成本極高且泛化能力有限;分層模型雖通過中間目標表示連接高層語義與底層動作,但中間目標通常需要3D點云等精確幾何輸入,在開放環(huán)境中難以獲取。

    如何在不依賴任何任務特定微調和成對動作數據的情況下,讓機器人理解語言指令并執(zhí)行復雜的操控任務,成為具身智能領域亟待突破的核心挑戰(zhàn)。

    新加坡國立大學邵林團隊提出了Goal-VLA,創(chuàng)新性地將圖像生成式VLM(視覺語言模型)作為「以物體為中心的世界模型」,通過物體目標狀態(tài)表示來連接高層語義推理與底層動作控制,僅需自然語言指令和單視角RGB-D圖像即可實現零樣本機器人操作。

    Goal-VLA——圖像生成式VLM化身「世界模型」,實現零樣本機器人操作 | ICRA 2026 二、核心方法

      Goal-VLA的核心設計是一個解耦式分層框架,將機器人操作分解為目標推理和動作執(zhí)行兩個獨立階段。

    第一階段:目標狀態(tài)推理(Goal State Inference)

    利用文本VLM(如GPT-4V)對自然語言指令進行語義豐富和場景理解,構建詳細的物體目標狀態(tài)描述。隨后調用圖像生成式VLM(如DALL-E 3、Stable Diffusion)根據豐富的提示詞生成目標場景圖像。生成的圖像直觀地展示了任務完成后物體應處的狀態(tài),作為「以物體為中心的世界模型」的輸出,無需任何3D幾何信息。

    第二階段:空間基準計算(Spatial Grounding)

    將生成的目標圖像與當前觀測圖像進行像素級語義特征匹配,結合深度圖信息,通過特征對應關系求解從當前狀態(tài)到目標狀態(tài)的3D變換矩陣(位姿增量)。這一步驟將2D視覺推理轉化為3D空間操作指令。

    第三階段:底層策略執(zhí)行(Low-level Policy)

    根據計算出的目標位姿,生成無碰撞的運動軌跡并驅動機械臂執(zhí)行。底層策略可復用現有的運動規(guī)劃算法,無需額外訓練。

    核心創(chuàng)新:合成-反思迭代機制

    將生成的虛擬目標圖像疊加到真實場景中進行視覺審查——檢查目標位姿是否物理可行(如是否超出桌面范圍、是否與其他物體碰撞)。若不可行,則自動修正描述并重新生成,形成「合成-反思」的閉環(huán)迭代。消融實驗顯示該機制將基礎成功率從40.0%大幅提升至88.8%。Goal-VLA——圖像生成式VLM化身「世界模型」,實現零樣本機器人操作 | ICRA 2026 

    三、亮點總結

      亮點一:無需任何任務特定微調,真正的零樣本泛化

     Goal-VLA在無需針對特定任務進行任何微調、無需任何成對動作數據的情況下,實現了強大的機器人操控能力。在RLBench仿真環(huán)境的59個任務上,平均成功率達59.9%,顯著優(yōu)于OpenVLA(37.6%)、Pi0(48.9%)、MOKA(37.5%)等需要大量數據訓練的基線方法。

    亮點二:真實機器人上的卓越表現 

    在真實的UFACTORY X-ARM 7機械臂上,Goal-VLA實現了60%的平均成功率,展示了從仿真到真實的良好遷移能力??缥矬w、跨環(huán)境、跨任務的泛化測試均表現優(yōu)異,證明了其作為通用機器人操作框架的潛力。

    亮點三:圖像生成VLM作為世界模型的新范式

     Goal-VLA首次系統(tǒng)性地驗證了圖像生成式VLM可以作為機器人操作中的「世界模型」——通過生成目標場景圖像來預測任務完成后的狀態(tài),替代了傳統(tǒng)方法中昂貴的3D目標表示。這一范式創(chuàng)新大幅降低了VLA模型的數據需求,為具身智能的普惠化發(fā)展開辟了新路徑。

    ──────────────────────────────────────────

    上述內容包含AI輔助生成,更詳細信息參見兩個鏈接

    原文鏈接:https://arxiv.org/abs/2506.23919

    解讀來源:https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2


    【封面圖片來源:網站名WXRedian,所有者:具身智能之心】

    分享:
    相關文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 欧美成人午夜在线观看视频| 日本中文字幕免费在线| 国产高清在线视频二区| 国产jlzzjlzz视频免费看| 伊人久久大香线蕉av五月天| 看全色黄大色黄大片 视频| 日韩av一区二区三区精品| 在线观看国产精品普通话对白精品| 色色二区| 人妻中文字幕亚洲精品| 香蕉EEWW99国产精选免费| 在线亚洲视频网站www色| 亚洲成人A∨| 亚洲尤物视频在线观看| 美女国产爆浆精品视频| 日本黄页网站免费观看| 污网站在线观看视频| 狼友看片| 无码人妻精品丰满熟妇区| 中文一区二区| 亚洲 欧美 中文 日韩欧美| 亚洲有无码中文网| 年轻女教师hd中字3| 中文字幕一级A片免费看| 国产白浆一区二区三区| 久久无码av一区二区三区| 亚洲精品国产啊女成拍色拍| 亚洲日韩VA无码中文字幕 | 精品国产18久久久久久| 九九精品国产| 精品久久亚洲一级α| 最近中文字幕国产精选| 日韩深夜免费在线观看| 在线综合亚洲欧洲综合网站| 国产熟女在线播放| 亚洲日产韩国一二三四区| 秋霞精品国产鲁丝片| 国产无遮挡又黄又爽动态图| 免费观看日本污污ww网站69| 丝袜美腿亚洲综合第一页| 丁香五月综合|