LLaVA-VLA——極簡(jiǎn)設(shè)計(jì)的高效視覺(jué)-語(yǔ)言-動(dòng)作機(jī)器人操控基線 | ICRA 2026

本文作者：陳淑瑜

2026-04-24 15:57

專(zhuān)題：ICRA 國(guó)際機(jī)器人與自動(dòng)化會(huì)議

導(dǎo)語(yǔ)：LLaVA-VLA正是針對(duì)這一需求提出的極簡(jiǎn)VLA基線，基于廣泛使用的LLaVA生態(tài)構(gòu)建，無(wú)任何性能作弊組件，力求用最簡(jiǎn)潔的設(shè)計(jì)達(dá)到有競(jìng)爭(zhēng)力的性能

一、研究背景

視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型是具身智能的核心架構(gòu)，旨在讓機(jī)器人通過(guò)視覺(jué)感知和語(yǔ)言理解直接輸出動(dòng)作指令。然而，當(dāng)前主流VLA模型（如RT-2、OpenVLA）通常架構(gòu)復(fù)雜、訓(xùn)練流程冗長(zhǎng)，缺乏一個(gè)設(shè)計(jì)簡(jiǎn)潔、易于理解和復(fù)現(xiàn)的基準(zhǔn)模型，阻礙了社區(qū)對(duì)VLA核心設(shè)計(jì)決策的系統(tǒng)性研究。

此外，現(xiàn)有VLA模型在訓(xùn)練效率上存在顯著差異——有些需要大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)，有些依賴復(fù)雜的跨模態(tài)對(duì)齊策略，使得研究者難以區(qū)分哪些性能提升來(lái)自架構(gòu)創(chuàng)新，哪些來(lái)自工程技巧。社區(qū)急需一個(gè)「少即是多」的純凈基線來(lái)推動(dòng)VLA研究的健康發(fā)展。

二、核心方法

LLaVA-VLA基于LLaVA架構(gòu)構(gòu)建，通過(guò)三個(gè)關(guān)鍵設(shè)計(jì)選擇實(shí)現(xiàn)了簡(jiǎn)潔與性能的平衡。

多視角圖像拼接（Concatenated Multi-view Images）

將第一人稱(chēng)視角和第三人稱(chēng)視角的觀測(cè)圖像垂直拼接為單一復(fù)合圖像，輸入視覺(jué)編碼器。這一設(shè)計(jì)保留了完整的空間信息，同時(shí)避免了多圖像獨(dú)立編碼帶來(lái)的token數(shù)量膨脹和信息丟失問(wèn)題，在信息完整性與計(jì)算效率之間取得了優(yōu)雅的平衡。

本體感覺(jué)作為文本輸入（Proprioception as Input）

將機(jī)器人的本體感覺(jué)信息（如關(guān)節(jié)角度、夾爪狀態(tài)）通過(guò)動(dòng)作分詞器編碼到與動(dòng)作token相同的嵌入空間中。這一設(shè)計(jì)使VLM的語(yǔ)言建模能力能夠自然地理解和生成連貫的動(dòng)作序列，而非將本體感覺(jué)作為獨(dú)立模態(tài)處理，簡(jiǎn)化了多模態(tài)融合的復(fù)雜度。

動(dòng)作分塊（Action Chunking）

設(shè)置動(dòng)作分塊大小為5，即模型每次輸出連續(xù)5步的動(dòng)作指令。這一隱式規(guī)劃?rùn)C(jī)制提高了生成動(dòng)作的時(shí)序一致性和執(zhí)行穩(wěn)定性，有效減少了單步?jīng)Q策帶來(lái)的抖動(dòng)和累積誤差。

高效訓(xùn)練流程

無(wú)需大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)，直接從LLaVA-v1.5-7b檢查點(diǎn)出發(fā)，僅需7小時(shí)微調(diào)即可獲得具備競(jìng)爭(zhēng)力的VLA模型。同時(shí)提供了0.5B參數(shù)的小模型版本，可在消費(fèi)級(jí)GPU（如24GB RTX 4090）上部署。

LLaVA-VLA——極簡(jiǎn)設(shè)計(jì)的高效視覺(jué)-語(yǔ)言-動(dòng)作機(jī)器人操控基線 | ICRA 2026

三、亮點(diǎn)總結(jié)

亮點(diǎn)一：極簡(jiǎn)設(shè)計(jì)，7小時(shí)微調(diào)即可超越OpenVLA

在CALVIN ABC→D基準(zhǔn)測(cè)試中，LLaVA-VLA達(dá)到3.68平均成功步數(shù)，優(yōu)于最流行的基線OpenVLA。而達(dá)成這一性能僅需從LLaVA-v1.5-7b檢查點(diǎn)微調(diào)7小時(shí)，無(wú)需任何大規(guī)模預(yù)訓(xùn)練或復(fù)雜數(shù)據(jù)管線，展示了VLA架構(gòu)本身的巨大潛力。

亮點(diǎn)二：0.5B小模型可部署在消費(fèi)級(jí)GPU

LLaVA-VLA-0.5b版本僅需24GB顯存即可運(yùn)行（如RTX 4090），在RoboTwin基準(zhǔn)測(cè)試中，困難任務(wù)成功率達(dá)28.6%。這一成果使VLA模型從實(shí)驗(yàn)室走向普通開(kāi)發(fā)者的桌面成為可能，極大降低了具身智能研究的硬件門(mén)檻。

亮點(diǎn)三：開(kāi)源生態(tài)推動(dòng)社區(qū)發(fā)展

LLaVA-VLA完全開(kāi)源（MIT許可證），提供了訓(xùn)練代碼、測(cè)試代碼和預(yù)訓(xùn)練檢查點(diǎn)，并持續(xù)更新新功能和環(huán)境支持。作為純凈基線，它幫助社區(qū)厘清了VLA架構(gòu)中哪些設(shè)計(jì)真正重要，推動(dòng)了VLA研究從「堆砌技巧」走向「理解本質(zhì)」的健康發(fā)展方向。

──────────────────────────────────────────

上述內(nèi)容包含AI輔助生成，更詳細(xì)信息參見(jiàn)兩個(gè)鏈接