• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    機(jī)器人 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    LLaVA-VLA——極簡(jiǎn)設(shè)計(jì)的高效視覺(jué)-語(yǔ)言-動(dòng)作機(jī)器人操控基線 | ICRA 2026

    導(dǎo)語(yǔ):LLaVA-VLA正是針對(duì)這一需求提出的極簡(jiǎn)VLA基線,基于廣泛使用的LLaVA生態(tài)構(gòu)建,無(wú)任何性能作弊組件,力求用最簡(jiǎn)潔的設(shè)計(jì)達(dá)到有競(jìng)爭(zhēng)力的性能

    一、研究背景  

    視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型是具身智能的核心架構(gòu),旨在讓機(jī)器人通過(guò)視覺(jué)感知和語(yǔ)言理解直接輸出動(dòng)作指令。然而,當(dāng)前主流VLA模型(如RT-2、OpenVLA)通常架構(gòu)復(fù)雜、訓(xùn)練流程冗長(zhǎng),缺乏一個(gè)設(shè)計(jì)簡(jiǎn)潔、易于理解和復(fù)現(xiàn)的基準(zhǔn)模型,阻礙了社區(qū)對(duì)VLA核心設(shè)計(jì)決策的系統(tǒng)性研究。

    此外,現(xiàn)有VLA模型在訓(xùn)練效率上存在顯著差異——有些需要大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),有些依賴復(fù)雜的跨模態(tài)對(duì)齊策略,使得研究者難以區(qū)分哪些性能提升來(lái)自架構(gòu)創(chuàng)新,哪些來(lái)自工程技巧。社區(qū)急需一個(gè)「少即是多」的純凈基線來(lái)推動(dòng)VLA研究的健康發(fā)展。


     二、核心方法  

    LLaVA-VLA基于LLaVA架構(gòu)構(gòu)建,通過(guò)三個(gè)關(guān)鍵設(shè)計(jì)選擇實(shí)現(xiàn)了簡(jiǎn)潔與性能的平衡。

    多視角圖像拼接(Concatenated Multi-view Images)

    將第一人稱(chēng)視角和第三人稱(chēng)視角的觀測(cè)圖像垂直拼接為單一復(fù)合圖像,輸入視覺(jué)編碼器。這一設(shè)計(jì)保留了完整的空間信息,同時(shí)避免了多圖像獨(dú)立編碼帶來(lái)的token數(shù)量膨脹和信息丟失問(wèn)題,在信息完整性與計(jì)算效率之間取得了優(yōu)雅的平衡。

    本體感覺(jué)作為文本輸入(Proprioception as Input)

    將機(jī)器人的本體感覺(jué)信息(如關(guān)節(jié)角度、夾爪狀態(tài))通過(guò)動(dòng)作分詞器編碼到與動(dòng)作token相同的嵌入空間中。這一設(shè)計(jì)使VLM的語(yǔ)言建模能力能夠自然地理解和生成連貫的動(dòng)作序列,而非將本體感覺(jué)作為獨(dú)立模態(tài)處理,簡(jiǎn)化了多模態(tài)融合的復(fù)雜度。

    動(dòng)作分塊(Action Chunking)

    設(shè)置動(dòng)作分塊大小為5,即模型每次輸出連續(xù)5步的動(dòng)作指令。這一隱式規(guī)劃?rùn)C(jī)制提高了生成動(dòng)作的時(shí)序一致性和執(zhí)行穩(wěn)定性,有效減少了單步?jīng)Q策帶來(lái)的抖動(dòng)和累積誤差。

    高效訓(xùn)練流程

    無(wú)需大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),直接從LLaVA-v1.5-7b檢查點(diǎn)出發(fā),僅需7小時(shí)微調(diào)即可獲得具備競(jìng)爭(zhēng)力的VLA模型。同時(shí)提供了0.5B參數(shù)的小模型版本,可在消費(fèi)級(jí)GPU(如24GB RTX 4090)上部署。

    LLaVA-VLA——極簡(jiǎn)設(shè)計(jì)的高效視覺(jué)-語(yǔ)言-動(dòng)作機(jī)器人操控基線 | ICRA 2026

     三、亮點(diǎn)總結(jié) 

    亮點(diǎn)一:極簡(jiǎn)設(shè)計(jì),7小時(shí)微調(diào)即可超越OpenVLA 

    在CALVIN ABC→D基準(zhǔn)測(cè)試中,LLaVA-VLA達(dá)到3.68平均成功步數(shù),優(yōu)于最流行的基線OpenVLA。而達(dá)成這一性能僅需從LLaVA-v1.5-7b檢查點(diǎn)微調(diào)7小時(shí),無(wú)需任何大規(guī)模預(yù)訓(xùn)練或復(fù)雜數(shù)據(jù)管線,展示了VLA架構(gòu)本身的巨大潛力。

    亮點(diǎn)二:0.5B小模型可部署在消費(fèi)級(jí)GPU

     LLaVA-VLA-0.5b版本僅需24GB顯存即可運(yùn)行(如RTX 4090),在RoboTwin基準(zhǔn)測(cè)試中,困難任務(wù)成功率達(dá)28.6%。這一成果使VLA模型從實(shí)驗(yàn)室走向普通開(kāi)發(fā)者的桌面成為可能,極大降低了具身智能研究的硬件門(mén)檻。

    亮點(diǎn)三:開(kāi)源生態(tài)推動(dòng)社區(qū)發(fā)展

     LLaVA-VLA完全開(kāi)源(MIT許可證),提供了訓(xùn)練代碼、測(cè)試代碼和預(yù)訓(xùn)練檢查點(diǎn),并持續(xù)更新新功能和環(huán)境支持。作為純凈基線,它幫助社區(qū)厘清了VLA架構(gòu)中哪些設(shè)計(jì)真正重要,推動(dòng)了VLA研究從「堆砌技巧」走向「理解本質(zhì)」的健康發(fā)展方向。

    ──────────────────────────────────────────

    上述內(nèi)容包含AI輔助生成,更詳細(xì)信息參見(jiàn)兩個(gè)鏈接

    原文鏈接:https://arxiv.org/abs/2602.22663

    解讀來(lái)源:https://github.com/OpenHelix-Team/LLaVA-VLA


    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 躁躁躁日日躁| 亚洲精品国产一区二区三| 成人午夜污污在线观看网站 | 四虎在线成人免费观看| 精品尤物TV福利院在线网站| 国产成人+亚洲欧洲| 久久精品国产亚洲av电影| √国产精品| 口爆AV| 亚洲欧美成人另类激情| 国产福利高颜值在线观看| 久久婷婷亚州| 日韩精品自在a| 少妇宾馆粉嫩10p| 91乱子伦国产乱子伦海的味道| 午夜福利在线视频| 婷婷伊人綜合中文字幕小说| 巨熟乳波霸若妻在线播放| 99视频偷窥在线精品国自产拍 | 艳妇乳肉豪妇荡乳xxx| 亚洲sm另类一区二区三区| 精品国产AV色欲果冻传媒| 少妇人妻偷人精品无码视频新浪| 粉嫩av一区二区三区蜜臀| www.30p| 久久综合给合久久国产免费| 色欲久久综合亚洲精品蜜桃| 亚洲免费一区二区av| аⅴ天堂中文在线网| 97avav| 日本人妻中文字幕乱码系列 | 特黄精品毛片在线观看| 亚洲人成伊人成综合网小说| 国产极品美女高潮抽搐免费网站| 成人免费毛片aaaaaa片| 无码人妻精品一区二区不卡| 99国产精品人妻人伦| 国产一区二区亚洲精品| 男女高潮又爽又黄又无遮挡| 精品人妻123| 亚洲中文一本无码AV在线无码|