0
| 本文作者: 鄭佳美 | 2026-06-17 14:30 |
近日,大曉機器人聯(lián)合香港中文大學多媒體實驗室(CUHK MMLab)正式發(fā)布全新“一腦多型”具身操作VLA模型 ACE-Ego,并向行業(yè)開源。作為“以人為中心”ACE 研發(fā)范式在具身模型預訓練的核心落地成果,ACE-Ego提出大規(guī)模第一視角人類視頻與多型機器人數據高效聯(lián)合預訓練的新范式,在兩大國際權威具身智能基準上雙雙領先,并在復雜零售場景中展現出強泛化落地能力,為具身操作模型的規(guī)模化演進開辟了全新路徑。

在國際公認的人形機器人操作基準 RoboCasa GR1 TableTop 上,ACE-Ego 以72.8%的平均成功率刷新當前最高紀錄,奪得榜首,大幅超越英偉達 GR00T、PI π?.?、京東JoyAI-RA 等主流模型;在高難度雙臂操作基準 RoboTwin 2.0 的強域隨機化測試中,ACE-Ego 以90.62%的成功率展現出遠超行業(yè)平均水平的環(huán)境魯棒性。
2025年12月,大曉機器人提出“以人為中心(Human-centric)” 的ACE具身研發(fā)范式,將人類與物理世界的互動規(guī)律作為核心研究起點,構建了一套從“環(huán)境式數據采集—開悟世界模型3.0—具身交互”的全鏈路技術體系。源于對 “以人為中心” ACE 范式的深度踐行,不同于行業(yè)傳統(tǒng) “以機器為中心”、依賴大批量高成本真機遙操作數據的路線,ACE-Ego 將海量低成本的第一視角人類視頻轉化為可用于模型訓練的有效監(jiān)督信號。通過統(tǒng)一相機空間動作表示、統(tǒng)一本體形態(tài)編碼、時間對齊動態(tài)分塊、可靠性自適應目標函數四大核心機制,它系統(tǒng)性破解了人與不同型號機器人數據在空間坐標系、本體結構、時序頻率、標簽質量上的四重異構難題,實現使用大規(guī)模高質量人類第一視角視頻與數千小時多機型機器人數據的協(xié)同訓練。
實驗結果證實了大規(guī)模第一視角人類視頻能夠有效提升VLA模型預訓練和下游適配能力:在 RoboCasa 基準上,引入第一視角人類視頻進行聯(lián)合預訓練,相比于僅使用機器人數據進行預訓練,模型成功率從 68.3% 提升至 72.8%,實現了4.5%的顯著性能跨越。充分證明了“以人為中心”的大規(guī)模數據預訓練對提升具身模型泛化能力的巨大價值。
目前,ACE-Ego 已能穩(wěn)定完成塑料袋打包、鞋子裝入鞋盒等長周期、強接觸的復雜零售操作,覆蓋商品整理、打包履約等典型線下零售環(huán)節(jié),突破了此前模型僅能完成簡單桌面抓取的能力邊界,為具身智能走向產業(yè)規(guī)模化落地提供了高性價比的技術方案。
刷新兩大國際具身智能基準,全面領跑通用操作模型
ACE-Ego 在RoboCasa GR1 TableTop 與 RoboTwin 2.0 兩大國際權威具身智能基準上取得SOTA成績,顯著超越英偉達 GR00T、PI π?.?、京東JoyAI-RA、螞蟻靈波LingBot-VLA、高德ABot-M0、小鵬DIAL等多款主流通用機器人模型。
在 RoboCasa GR1 TableTop 人形桌面操作基準上,ACE-Ego 實現72.8%的平均成功率,大幅刷新榜單紀錄。該基準基于 GR1 人形機器人平臺設置 24 項典型家庭任務,涵蓋18項抓取放置重排與6項鉸接物體交互,是衡量人形機器人通用操作能力的核心標尺。

測試結果顯示,ACE-Ego 較第二名 小鵬DIAL模型(70.2%)任務成功率提升 2.6%,較英偉達 GR00T-N1.6(47.6%)提升達25.2%,同時全面領先 京東JoyAI-RA(63.2%)、高德ABot-M0(58.3%)、FLARE(55.0%)等主流模型。性能增益覆蓋抓取放置、鉸接操作全品類任務,其中盤子疊放、托盤移鍋等任務成功率突破98%,證明其能力提升來自框架底層優(yōu)化,而非特定任務過擬合。
在 RoboTwin 2.0 雙臂操作基準中,ACE-Ego 同樣穩(wěn)居VLA類模型榜首,展現出極強的環(huán)境魯棒性。該基準包含50項覆蓋抓取、放置、工具使用、雙臂協(xié)同的復雜任務,設置干凈場景(Easy)與強域隨機化場景(Hard)兩種模式,其中 Hard 模式隨機改變光照、紋理、物體位置等條件,高度模擬真實世界不確定性。
ACE-Ego 在 Easy 模式下成功率達 91.12%,Hard 模式達 90.62%,超越騰訊混元Hy-VLA(90.9%/90.1%)、 京東JoyAI-RA(90.48%/89.28%)、螞蟻靈波LingBot-VLA(88.56%/86.68%)、PI π?.?(82.74%/76.76%)、生數Motus(88.66%/87.02%)、高德ABot-M0 (86.06%/85.08%)等對比模型。

從干凈場景到強隨機化場景,ACE-Ego 性能僅衰減0.5個百分點,遠低于行業(yè)平均水平,意味著其習得技能具備極強的環(huán)境適應性,更貼近真實商業(yè)部署要求。
零售場景全鏈路落地驗證,實操能力解鎖商業(yè)價值
從鞋盒規(guī)整入盒、咖啡定量分裝,再到柔性塑料袋打包,ACE-Ego 在典型零售場景中展現出全棧式真實操作能力,覆蓋商品陳列、履約打包、貨品分揀等線下零售核心作業(yè)環(huán)節(jié)。
機械臂精準識別鞋盒與雙鞋的空間位置,按照零售場景的標準陳列方位將鞋依次平穩(wěn)放入盒內;隨后精準定位鞋盒翻蓋的鉸鏈轉軸與邊緣,沿自然合蓋軌跡平穩(wěn)完成翻蓋扣合,全程無碰撞、無擠壓,展現出對鉸接類物體的幾何操作理解與精準空間定位能力。
機械臂抓取咖啡勺后,從敞口咖啡罐中平穩(wěn)舀取定量咖啡豆,抬臂、平移、對準杯口一氣呵成,精準控制傾倒角度與速度將咖啡豆全部注入杯中,全程無撒漏。整套長時序操作連貫流暢,體現模型對長程動作序列的規(guī)劃能力與末端執(zhí)行的精細對準精度。
機械臂抓取輕薄購物塑料袋的袋口,順勢撐開袋身形成穩(wěn)定容納空間,將目標物品平穩(wěn)放入袋中后收緊袋口完成打包。全程應對塑料袋柔軟易變形、無固定形態(tài)的特性,實現了柔性物體的穩(wěn)定抓取與形態(tài)操控。
四大核心機制破局異構融合,解鎖人機協(xié)同預訓練新范式
雙榜登頂與下游任務高效適配的卓越表現,源于 ACE-Ego 依托“以人為中心”的研發(fā)范式,對具身智能行業(yè)痛點實現的重大技術突破。面對人-機數據在空間、結構、時間、訓練監(jiān)督信號四個維度嚴重不匹配的行業(yè)挑戰(zhàn),ACE-Ego 創(chuàng)新構建了“大規(guī)模人類第一人稱視頻 + 多具身機器人數據”的全鏈路融合方案。通過自研的四大核心機制,ACE-Ego 分別從空間、結構、時間以及訓練監(jiān)督四個維度統(tǒng)一表示與對齊,徹底破解了人機數據不兼容的難題。這四大機制并行發(fā)力,成功支撐了大規(guī)模人機異構數據的同框訓練,將具身操作模型推入多源協(xié)同預訓練的新階段。
機制一:第一視角統(tǒng)一動作空間表達,讓不同人與不同機型的動作 “說同一種語言”。ACE-Ego 以頭部相機坐標系為統(tǒng)一基準,將多機型機器人末端執(zhí)行器軌跡、不同人類視角視頻重建的手部運動全部投影到機器人 “第一視角” 下,讓動作指令與視覺觀測對齊至統(tǒng)一坐標系,免去跨平臺復雜坐標校準,新本體部署僅需替換一組相機外參。針對人類視頻,團隊搭建多階段處理管線,覆蓋原始篩選、3D 手部重建、參數化映射與多輪質量過濾等數據構建機制,最終輸出與機器人完全同構的動作向量,實現數據格式層面的無縫兼容。
機制二:URDF(統(tǒng)一機器人描述格式) 本體形態(tài)映射,讓模型知曉 “誰在做動作”。不同機器人的關節(jié)結構、物理尺寸差異巨大,人體運動模式與機器人更是截然不同。為此,ACE-Ego 創(chuàng)新性地將 URDF(統(tǒng)一機器人描述格式)映射為跨本體的統(tǒng)一中間層編碼。對于機器人,它通過解析 URDF 文件將運動學特征編碼并輸入動作解碼器;對于人類數據,則通過學習專屬的“代理形態(tài)嵌入”來模擬人體結構。這種“形態(tài)條件”僅在動作解碼階段注入,不干擾視覺語言主干網絡,不僅保留了主干網絡強大的通用視覺理解能力,更帶來了極快的新機適配速度——在面對 ARX 雙臂機器人等全新未知機型時,僅需不到 200 條動作數據,即可在極短時間內完成適配部署。
機制三:時間對齊動態(tài)分塊,讓不同“手速”數據步調一致。不同機器人平臺控制頻率從10Hz到30Hz不等,固定幀數的動作塊對應物理時長差異顯著,直接混訓會擾亂時序邏輯。ACE-Ego 打破按幀切分的傳統(tǒng)做法,以物理時長為標準劃分動作塊,確保所有數據源預測相同時長的未來動作窗口;搭配分桶采樣策略,按任務類型、時序階段、塊長組合成批,大幅降低填充開銷,穩(wěn)定梯度更新,讓跨頻率數據的聯(lián)合訓練平穩(wěn)落地。
機制四:可靠性自適應目標函數,帶噪聲數據“按需采信”。人類視頻數據中的動作標簽由視覺算法重建獲得,動作標簽帶有一定重建噪聲,若與高精度傳感器數據同權訓練反而會拉低模型精度。ACE-Ego 設計了雙層訓練目標體系:機器人傳感器數據作為“準確”監(jiān)督信號,全權重錨定核心控制精度;人類采集動作作為重要多樣性補充信號也參與訓練,實行三級加權機制 —— 通道級重點采信高可靠位置信號,數據集級按重建質量設置權重上限,幀級通過運動平滑度動態(tài)過濾異常片段。這套 “信息過濾器” 既充分釋放了大規(guī)模人類視頻場景的多樣性潛力與行為廣度,又牢牢守住機器人高精度數據的質量底線。
四大機制環(huán)環(huán)相扣,打通了 “人類視頻規(guī)模化擴量 + 機器人數據保障精度” 的全新技術路徑,為具身操作模型的規(guī)模化訓練打開了成本與規(guī)模的雙重增長空間。
大曉機器人將繼續(xù)深化“以人為中心”的 ACE 研發(fā)范式,將這一套高效的人機協(xié)同預訓練方法推廣至更廣闊的空間。在模型層面,ACE-Ego模型系列將進一步融合視覺-語言-動作(VLA)模型和具身世界模型(WAM),賦予機器人更強的物理世界想象力與預測能力;在應用層面,該范式也將從當前的復雜零售場景,加速拓展至工業(yè)產線、柔性制造等更多高精尖實體產業(yè)場景,以高性價比、高泛化性的技術路徑,全面加速具身智能的規(guī)模化商業(yè)落地。
關于大曉機器人(ACE ROBOTICS)——讓機器人擁有聰明的“大腦”和有趣的“靈魂”
大曉機器人(ACE ROBOTICS)是加速具身智能智慧躍遷的機器人公司,由商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事王曉剛出任董事長,世界級AI科學家陶大程院士擔任首席科學家,公司匯聚全球稀缺的青年AI科學家及來自產業(yè)界的卓越專家,共同深耕具身智能領域,旨在通過突破性技術創(chuàng)新,對具身智能場景的深刻洞察,推動機器人自主理解和探索物理世界,加速具身智能的商業(yè)化場景落地。
大曉機器人首創(chuàng)ACE研發(fā)范式,構建“環(huán)境式數據采集—開悟世界模型3.0—泛化具身模組”的全鏈路技術體系。大曉機器人以全時空多視角環(huán)境采集為引擎,國內首個開源且已實現商業(yè)應用的“開悟”世界模型3.0(Kairos 3.0)和具身基模型為技術基座,解決具身智能行業(yè)目前面臨的數據荒、常識差、泛化難、通用性不足等核心挑戰(zhàn)。大曉機器人同步重磅推出“具身超級大腦模組A1”,加速具身智能在安防、巡檢、服務等多元場景的規(guī)模化、商業(yè)化落地。
大曉機器人不僅是技術的開拓者,更是生態(tài)的共建者。大曉機器人通過與頂尖的芯片廠商、硬件廠商、云服務商及垂直場景伙伴的戰(zhàn)略合作,共同打通“模型—硬件—場景”的產業(yè)閉環(huán),提供標準化與定制化結合的解決方案,共同成為具身智能領域極具潛力的中國創(chuàng)新力量。