0
| 本文作者: 陳淑瑜 | 2026-04-24 15:57 | 專(zhuān)題:ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議 |
視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型是具身智能的核心架構(gòu),旨在讓機(jī)器人通過(guò)視覺(jué)感知和語(yǔ)言理解直接輸出動(dòng)作指令。然而,當(dāng)前主流VLA模型(如RT-2、OpenVLA)通常架構(gòu)復(fù)雜、訓(xùn)練流程冗長(zhǎng),缺乏一個(gè)設(shè)計(jì)簡(jiǎn)潔、易于理解和復(fù)現(xiàn)的基準(zhǔn)模型,阻礙了社區(qū)對(duì)VLA核心設(shè)計(jì)決策的系統(tǒng)性研究。
此外,現(xiàn)有VLA模型在訓(xùn)練效率上存在顯著差異——有些需要大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),有些依賴復(fù)雜的跨模態(tài)對(duì)齊策略,使得研究者難以區(qū)分哪些性能提升來(lái)自架構(gòu)創(chuàng)新,哪些來(lái)自工程技巧。社區(qū)急需一個(gè)「少即是多」的純凈基線來(lái)推動(dòng)VLA研究的健康發(fā)展。
LLaVA-VLA基于LLaVA架構(gòu)構(gòu)建,通過(guò)三個(gè)關(guān)鍵設(shè)計(jì)選擇實(shí)現(xiàn)了簡(jiǎn)潔與性能的平衡。
將第一人稱(chēng)視角和第三人稱(chēng)視角的觀測(cè)圖像垂直拼接為單一復(fù)合圖像,輸入視覺(jué)編碼器。這一設(shè)計(jì)保留了完整的空間信息,同時(shí)避免了多圖像獨(dú)立編碼帶來(lái)的token數(shù)量膨脹和信息丟失問(wèn)題,在信息完整性與計(jì)算效率之間取得了優(yōu)雅的平衡。
將機(jī)器人的本體感覺(jué)信息(如關(guān)節(jié)角度、夾爪狀態(tài))通過(guò)動(dòng)作分詞器編碼到與動(dòng)作token相同的嵌入空間中。這一設(shè)計(jì)使VLM的語(yǔ)言建模能力能夠自然地理解和生成連貫的動(dòng)作序列,而非將本體感覺(jué)作為獨(dú)立模態(tài)處理,簡(jiǎn)化了多模態(tài)融合的復(fù)雜度。
設(shè)置動(dòng)作分塊大小為5,即模型每次輸出連續(xù)5步的動(dòng)作指令。這一隱式規(guī)劃?rùn)C(jī)制提高了生成動(dòng)作的時(shí)序一致性和執(zhí)行穩(wěn)定性,有效減少了單步?jīng)Q策帶來(lái)的抖動(dòng)和累積誤差。
無(wú)需大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),直接從LLaVA-v1.5-7b檢查點(diǎn)出發(fā),僅需7小時(shí)微調(diào)即可獲得具備競(jìng)爭(zhēng)力的VLA模型。同時(shí)提供了0.5B參數(shù)的小模型版本,可在消費(fèi)級(jí)GPU(如24GB RTX 4090)上部署。

在CALVIN ABC→D基準(zhǔn)測(cè)試中,LLaVA-VLA達(dá)到3.68平均成功步數(shù),優(yōu)于最流行的基線OpenVLA。而達(dá)成這一性能僅需從LLaVA-v1.5-7b檢查點(diǎn)微調(diào)7小時(shí),無(wú)需任何大規(guī)模預(yù)訓(xùn)練或復(fù)雜數(shù)據(jù)管線,展示了VLA架構(gòu)本身的巨大潛力。
LLaVA-VLA-0.5b版本僅需24GB顯存即可運(yùn)行(如RTX 4090),在RoboTwin基準(zhǔn)測(cè)試中,困難任務(wù)成功率達(dá)28.6%。這一成果使VLA模型從實(shí)驗(yàn)室走向普通開(kāi)發(fā)者的桌面成為可能,極大降低了具身智能研究的硬件門(mén)檻。
LLaVA-VLA完全開(kāi)源(MIT許可證),提供了訓(xùn)練代碼、測(cè)試代碼和預(yù)訓(xùn)練檢查點(diǎn),并持續(xù)更新新功能和環(huán)境支持。作為純凈基線,它幫助社區(qū)厘清了VLA架構(gòu)中哪些設(shè)計(jì)真正重要,推動(dòng)了VLA研究從「堆砌技巧」走向「理解本質(zhì)」的健康發(fā)展方向。
──────────────────────────────────────────
上述內(nèi)容包含AI輔助生成,更詳細(xì)信息參見(jiàn)兩個(gè)鏈接
原文鏈接:https://arxiv.org/abs/2602.22663
解讀來(lái)源:https://github.com/OpenHelix-Team/LLaVA-VLA
本專(zhuān)題其他文章