刷新權威榜單SOTA！ACE-Ego 解鎖“以人為中心”的規(guī)模化具身模型訓練新范式

本文作者：鄭佳美

2026-06-17 14:30

導語：刷新兩大國際具身智能基準，全面領跑通用操作模型

近日，大曉機器人聯(lián)合香港中文大學多媒體實驗室（CUHK MMLab）正式發(fā)布全新“一腦多型”具身操作VLA模型 ACE-Ego，并向行業(yè)開源。作為“以人為中心”ACE 研發(fā)范式在具身模型預訓練的核心落地成果，ACE-Ego提出大規(guī)模第一視角人類視頻與多型機器人數據高效聯(lián)合預訓練的新范式，在兩大國際權威具身智能基準上雙雙領先，并在復雜零售場景中展現出強泛化落地能力，為具身操作模型的規(guī)模化演進開辟了全新路徑。

在國際公認的人形機器人操作基準 RoboCasa GR1 TableTop 上，ACE-Ego 以72.8%的平均成功率刷新當前最高紀錄，奪得榜首，大幅超越英偉達 GR00T、PI π?.?、京東JoyAI-RA 等主流模型；在高難度雙臂操作基準 RoboTwin 2.0 的強域隨機化測試中，ACE-Ego 以90.62%的成功率展現出遠超行業(yè)平均水平的環(huán)境魯棒性。

2025年12月，大曉機器人提出“以人為中心（Human-centric）” 的ACE具身研發(fā)范式，將人類與物理世界的互動規(guī)律作為核心研究起點，構建了一套從“環(huán)境式數據采集—開悟世界模型3.0—具身交互”的全鏈路技術體系。源于對 “以人為中心” ACE 范式的深度踐行，不同于行業(yè)傳統(tǒng) “以機器為中心”、依賴大批量高成本真機遙操作數據的路線，ACE-Ego 將海量低成本的第一視角人類視頻轉化為可用于模型訓練的有效監(jiān)督信號。通過統(tǒng)一相機空間動作表示、統(tǒng)一本體形態(tài)編碼、時間對齊動態(tài)分塊、可靠性自適應目標函數四大核心機制，它系統(tǒng)性破解了人與不同型號機器人數據在空間坐標系、本體結構、時序頻率、標簽質量上的四重異構難題，實現使用大規(guī)模高質量人類第一視角視頻與數千小時多機型機器人數據的協(xié)同訓練。

實驗結果證實了大規(guī)模第一視角人類視頻能夠有效提升VLA模型預訓練和下游適配能力：在 RoboCasa 基準上，引入第一視角人類視頻進行聯(lián)合預訓練，相比于僅使用機器人數據進行預訓練，模型成功率從 68.3% 提升至 72.8%，實現了4.5%的顯著性能跨越。充分證明了“以人為中心”的大規(guī)模數據預訓練對提升具身模型泛化能力的巨大價值。

目前，ACE-Ego 已能穩(wěn)定完成塑料袋打包、鞋子裝入鞋盒等長周期、強接觸的復雜零售操作，覆蓋商品整理、打包履約等典型線下零售環(huán)節(jié)，突破了此前模型僅能完成簡單桌面抓取的能力邊界，為具身智能走向產業(yè)規(guī)模化落地提供了高性價比的技術方案。

刷新兩大國際具身智能基準，全面領跑通用操作模型

ACE-Ego 在RoboCasa GR1 TableTop 與 RoboTwin 2.0 兩大國際權威具身智能基準上取得SOTA成績，顯著超越英偉達 GR00T、PI π?.?、京東JoyAI-RA、螞蟻靈波LingBot-VLA、高德ABot-M0、小鵬DIAL等多款主流通用機器人模型。

在 RoboCasa GR1 TableTop 人形桌面操作基準上，ACE-Ego 實現72.8%的平均成功率，大幅刷新榜單紀錄。該基準基于 GR1 人形機器人平臺設置 24 項典型家庭任務，涵蓋18項抓取放置重排與6項鉸接物體交互，是衡量人形機器人通用操作能力的核心標尺。

刷新權威榜單SOTA！ACE-Ego 解鎖“以人為中心”的規(guī)模化具身模型訓練新范式

測試結果顯示，ACE-Ego 較第二名小鵬DIAL模型（70.2%）任務成功率提升 2.6%，較英偉達 GR00T-N1.6（47.6%）提升達25.2%，同時全面領先京東JoyAI-RA（63.2%）、高德ABot-M0（58.3%）、FLARE（55.0%）等主流模型。性能增益覆蓋抓取放置、鉸接操作全品類任務，其中盤子疊放、托盤移鍋等任務成功率突破98%，證明其能力提升來自框架底層優(yōu)化，而非特定任務過擬合。

在 RoboTwin 2.0 雙臂操作基準中，ACE-Ego 同樣穩(wěn)居VLA類模型榜首，展現出極強的環(huán)境魯棒性。該基準包含50項覆蓋抓取、放置、工具使用、雙臂協(xié)同的復雜任務，設置干凈場景（Easy）與強域隨機化場景（Hard）兩種模式，其中 Hard 模式隨機改變光照、紋理、物體位置等條件，高度模擬真實世界不確定性。

ACE-Ego 在 Easy 模式下成功率達 91.12%，Hard 模式達 90.62%，超越騰訊混元Hy-VLA（90.9%/90.1%）、京東JoyAI-RA（90.48%/89.28%）、螞蟻靈波LingBot-VLA（88.56%/86.68%）、PI π?.?（82.74%/76.76%）、生數Motus（88.66%/87.02%）、高德ABot-M0 （86.06%/85.08%）等對比模型。

刷新權威榜單SOTA！ACE-Ego 解鎖“以人為中心”的規(guī)模化具身模型訓練新范式

從干凈場景到強隨機化場景，ACE-Ego 性能僅衰減0.5個百分點，遠低于行業(yè)平均水平，意味著其習得技能具備極強的環(huán)境適應性，更貼近真實商業(yè)部署要求。

零售場景全鏈路落地驗證，實操能力解鎖商業(yè)價值

從鞋盒規(guī)整入盒、咖啡定量分裝，再到柔性塑料袋打包，ACE-Ego 在典型零售場景中展現出全棧式真實操作能力，覆蓋商品陳列、履約打包、貨品分揀等線下零售核心作業(yè)環(huán)節(jié)。

機械臂精準識別鞋盒與雙鞋的空間位置，按照零售場景的標準陳列方位將鞋依次平穩(wěn)放入盒內；隨后精準定位鞋盒翻蓋的鉸鏈轉軸與邊緣，沿自然合蓋軌跡平穩(wěn)完成翻蓋扣合，全程無碰撞、無擠壓，展現出對鉸接類物體的幾何操作理解與精準空間定位能力。

機械臂抓取咖啡勺后，從敞口咖啡罐中平穩(wěn)舀取定量咖啡豆，抬臂、平移、對準杯口一氣呵成，精準控制傾倒角度與速度將咖啡豆全部注入杯中，全程無撒漏。整套長時序操作連貫流暢，體現模型對長程動作序列的規(guī)劃能力與末端執(zhí)行的精細對準精度。

機械臂抓取輕薄購物塑料袋的袋口，順勢撐開袋身形成穩(wěn)定容納空間，將目標物品平穩(wěn)放入袋中后收緊袋口完成打包。全程應對塑料袋柔軟易變形、無固定形態(tài)的特性，實現了柔性物體的穩(wěn)定抓取與形態(tài)操控。

四大核心機制破局異構融合，解鎖人機協(xié)同預訓練新范式

雙榜登頂與下游任務高效適配的卓越表現，源于 ACE-Ego 依托“以人為中心”的研發(fā)范式，對具身智能行業(yè)痛點實現的重大技術突破。面對人-機數據在空間、結構、時間、訓練監(jiān)督信號四個維度嚴重不匹配的行業(yè)挑戰(zhàn)，ACE-Ego 創(chuàng)新構建了“大規(guī)模人類第一人稱視頻 + 多具身機器人數據”的全鏈路融合方案。通過自研的四大核心機制，ACE-Ego 分別從空間、結構、時間以及訓練監(jiān)督四個維度統(tǒng)一表示與對齊，徹底破解了人機數據不兼容的難題。這四大機制并行發(fā)力，成功支撐了大規(guī)模人機異構數據的同框訓練，將具身操作模型推入多源協(xié)同預訓練的新階段。

機制一：第一視角統(tǒng)一動作空間表達，讓不同人與不同機型的動作 “說同一種語言”。ACE-Ego 以頭部相機坐標系為統(tǒng)一基準，將多機型機器人末端執(zhí)行器軌跡、不同人類視角視頻重建的手部運動全部投影到機器人 “第一視角” 下，讓動作指令與視覺觀測對齊至統(tǒng)一坐標系，免去跨平臺復雜坐標校準，新本體部署僅需替換一組相機外參。針對人類視頻，團隊搭建多階段處理管線，覆蓋原始篩選、3D 手部重建、參數化映射與多輪質量過濾等數據構建機制，最終輸出與機器人完全同構的動作向量，實現數據格式層面的無縫兼容。

機制二：URDF（統(tǒng)一機器人描述格式）本體形態(tài)映射，讓模型知曉 “誰在做動作”。不同機器人的關節(jié)結構、物理尺寸差異巨大，人體運動模式與機器人更是截然不同。為此，ACE-Ego 創(chuàng)新性地將 URDF（統(tǒng)一機器人描述格式）映射為跨本體的統(tǒng)一中間層編碼。對于機器人，它通過解析 URDF 文件將運動學特征編碼并輸入動作解碼器；對于人類數據，則通過學習專屬的“代理形態(tài)嵌入”來模擬人體結構。這種“形態(tài)條件”僅在動作解碼階段注入，不干擾視覺語言主干網絡，不僅保留了主干網絡強大的通用視覺理解能力，更帶來了極快的新機適配速度——在面對 ARX 雙臂機器人等全新未知機型時，僅需不到 200 條動作數據，即可在極短時間內完成適配部署。

機制三：時間對齊動態(tài)分塊，讓不同“手速”數據步調一致。不同機器人平臺控制頻率從10Hz到30Hz不等，固定幀數的動作塊對應物理時長差異顯著，直接混訓會擾亂時序邏輯。ACE-Ego 打破按幀切分的傳統(tǒng)做法，以物理時長為標準劃分動作塊，確保所有數據源預測相同時長的未來動作窗口；搭配分桶采樣策略，按任務類型、時序階段、塊長組合成批，大幅降低填充開銷，穩(wěn)定梯度更新，讓跨頻率數據的聯(lián)合訓練平穩(wěn)落地。

機制四：可靠性自適應目標函數，帶噪聲數據“按需采信”。人類視頻數據中的動作標簽由視覺算法重建獲得，動作標簽帶有一定重建噪聲，若與高精度傳感器數據同權訓練反而會拉低模型精度。ACE-Ego 設計了雙層訓練目標體系：機器人傳感器數據作為“準確”監(jiān)督信號，全權重錨定核心控制精度；人類采集動作作為重要多樣性補充信號也參與訓練，實行三級加權機制 —— 通道級重點采信高可靠位置信號，數據集級按重建質量設置權重上限，幀級通過運動平滑度動態(tài)過濾異常片段。這套 “信息過濾器” 既充分釋放了大規(guī)模人類視頻場景的多樣性潛力與行為廣度，又牢牢守住機器人高精度數據的質量底線。

四大機制環(huán)環(huán)相扣，打通了 “人類視頻規(guī)模化擴量 + 機器人數據保障精度” 的全新技術路徑，為具身操作模型的規(guī)模化訓練打開了成本與規(guī)模的雙重增長空間。

大曉機器人將繼續(xù)深化“以人為中心”的 ACE 研發(fā)范式，將這一套高效的人機協(xié)同預訓練方法推廣至更廣闊的空間。在模型層面，ACE-Ego模型系列將進一步融合視覺－語言－動作（VLA）模型和具身世界模型（WAM），賦予機器人更強的物理世界想象力與預測能力；在應用層面，該范式也將從當前的復雜零售場景，加速拓展至工業(yè)產線、柔性制造等更多高精尖實體產業(yè)場景，以高性價比、高泛化性的技術路徑，全面加速具身智能的規(guī)模化商業(yè)落地。

關于大曉機器人（ACE ROBOTICS）——讓機器人擁有聰明的“大腦”和有趣的“靈魂”

大曉機器人（ACE ROBOTICS）是加速具身智能智慧躍遷的機器人公司，由商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任董事長，世界級AI科學家陶大程院士擔任首席科學家，公司匯聚全球稀缺的青年AI科學家及來自產業(yè)界的卓越專家，共同深耕具身智能領域，旨在通過突破性技術創(chuàng)新，對具身智能場景的深刻洞察，推動機器人自主理解和探索物理世界，加速具身智能的商業(yè)化場景落地。

大曉機器人首創(chuàng)ACE研發(fā)范式，構建“環(huán)境式數據采集—開悟世界模型3.0—泛化具身模組”的全鏈路技術體系。大曉機器人以全時空多視角環(huán)境采集為引擎，國內首個開源且已實現商業(yè)應用的“開悟”世界模型3.0（Kairos 3.0）和具身基模型為技術基座，解決具身智能行業(yè)目前面臨的數據荒、常識差、泛化難、通用性不足等核心挑戰(zhàn)。大曉機器人同步重磅推出“具身超級大腦模組A1”，加速具身智能在安防、巡檢、服務等多元場景的規(guī)模化、商業(yè)化落地。

大曉機器人不僅是技術的開拓者，更是生態(tài)的共建者。大曉機器人通過與頂尖的芯片廠商、硬件廠商、云服務商及垂直場景伙伴的戰(zhàn)略合作，共同打通“模型—硬件—場景”的產業(yè)閉環(huán)，提供標準化與定制化結合的解決方案，共同成為具身智能領域極具潛力的中國創(chuàng)新力量。

0人收藏

鄭佳美

編輯

發(fā)私信

當月熱門文章