0
| 本文作者: 小七 | 2026-06-01 20:33 |
過去,機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執(zhí)行一串預(yù)設(shè)動作。現(xiàn)在,我們讓G0.5做到了:先想——毛巾在哪?洗手池在哪?應(yīng)該先拿起毛巾,再移動過去,最后放下。邊思考,邊行動。
這一能力依托于我們最新的 VLA(視覺-語言-行動)模型架構(gòu)設(shè)計:讓同一個模型、同一套權(quán)重,同時完成推理與行動,讓機器人擁有“行動中的思考能力”。
G0.5 在 R1 Lite 機器人上,零樣本(未經(jīng)任何該場景的微調(diào)),僅憑自然語言指令直接驅(qū)動機器人完成操作任務(wù)。模型從未見過當前的環(huán)境布局、物體類別和指令組合,卻能實時理解指令意圖、分解動作并輸出流暢的雙臂控制。
這正是 G0.5 “言出法隨”的開箱即用能力——一個模型,一句話,直接干活。
過去,機器人學習一項新任務(wù)通常意味著:重新采集數(shù)據(jù)、重新微調(diào)模型、重新適配場景。它們可以出色地完成被訓練過的任務(wù),卻很難泛化到新的物體、新的環(huán)境和新的指令。
我們通過大規(guī)模、多任務(wù)預(yù)訓練,讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作,不再是單個任務(wù)中的固定片段,而是沉淀為模型可以復(fù)用的能力單元。
在面對新的場景、空間布局和從未見過的物體時,僅憑自然語言指令,G0.5 就能直接執(zhí)行操作,機器人開始 “邊思考邊行動”(Think While Acting)。

1. 統(tǒng)一異構(gòu)動作編解碼器:讓一種“動作語言”覆蓋所有機器人
不同機器人的形態(tài)、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業(yè)機器人,每一種都有各自的動作維度。過去的做法,要么每種機器人單獨搞一套(如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化),要么把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識,后者會讓 token 數(shù)量隨總自由度線性膨脹——哪怕當前這一步只是手指動一下,模型也得為所有關(guān)節(jié)生成 token,浪費嚴重,而且語義高度糾纏、遷移性差。
我們認為,動作 token 本應(yīng)像語言一樣既結(jié)構(gòu)化又稀疏。為此我們設(shè)計了一套統(tǒng)一的異構(gòu)動作編解碼器。得益于這套設(shè)計,G0.5 用一套動作詞表就能涵蓋從桌面雙臂到全身移動操作的各類本體,自回歸解碼帶來的額外開銷也被控制在可接受范圍內(nèi)——這正是我們能把 VLM 重新放回“動作生成者”位置、而不是退化為條件編碼器的關(guān)鍵前提。

G0.5 Action tokenizer

2. 原生動作思維鏈:讓機器人不僅“邊思考邊行動”,還聽得懂“怎么做”
統(tǒng)一動作詞表讓我們可以把 VLM 重新放回“動作生成者”的位置。這件事真正的回報,是 VLM 在預(yù)訓練中習得的生成式能力——鏈式思維、上下文學習、prompt 調(diào)制——可以原生作用于動作生成,而不必先穿過 VLM-as-Encoder 架構(gòu)里那個“條件編碼”的壓縮瓶頸。
多數(shù)現(xiàn)有工作中,鏈式思維(CoT)只是訓練時的輔助任務(wù),推理模塊和動作模塊被割裂在兩套參數(shù)、兩個目標里——推理結(jié)果想影響動作,必須先被壓成一段隱狀態(tài)再喂給下游 expert,中間既有語義損失,延遲也不可控。我們認為應(yīng)回歸本源,將 CoT 與動作生成融合在同一個自回歸流中:模型會先輸出子任務(wù)分解、目標物體框、2D 軌跡提示等推理結(jié)果,再輸出動作 token。
這套設(shè)計帶來兩個可分別驗證的收益:
?長程任務(wù)的零樣本分解能力:在 BEHAVIOR-1K 這類需要將自然語言指令拆解成數(shù)十個子步驟的家居任務(wù)上,單個 G0.5 checkpoint 僅訓練一個 epoch 即超過訓練四個 epoch 的 π0.5 ,也超過由四個 checkpoint 組成的 Challenge 冠軍方案。在預(yù)訓練分布外的家居任務(wù)上,模型同樣能零樣本完成子任務(wù)分解。
?語言對行為的實時塑造:因為 prompt 直接進入和動作 token 同一條 AR 流,自然語言可以在推理時連續(xù)調(diào)制動作分布,無需重新訓練。作為一個代表性的定性示例,在“打開烤面包機開關(guān)”任務(wù)上,由于開關(guān)行程較長,僅給“打開開關(guān)”指令時模型的按壓力度不夠;一旦在指令中追加“push harder”,模型會明顯加大下壓力度并最終觸發(fā)開關(guān)。

G0.5 在 R1 Lite 上零樣本執(zhí)行“把毛巾放進洗手池”:在同一自回歸流中,模型先生成思考(子任務(wù)、目標物體框),再輸出動作 token,并從每一幀觀測閉環(huán)重規(guī)劃。
3. 時空注意力模塊:為機器人注入上下文感知先驗
真實的復(fù)雜家居任務(wù)不能僅依賴單幀畫面的“本能反應(yīng)”。當視線被機械臂短暫遮擋,或任務(wù)意外失敗時,機器人必須依賴歷史上下文才能維持穩(wěn)定的空間感知。我們?yōu)?G0.5 配備了輕量級時空注意力模塊,融合數(shù)秒的歷史視覺信息,使模型在局部視野丟失時依然能穩(wěn)健執(zhí)行。
實驗表明,得益于預(yù)訓練階段習得的感知先驗,G0.5 在 BEHAVIOR-1K 中“移動箱子到儲物間”“裝車”“搬木柴”“整理臥室”等長程任務(wù)上穩(wěn)定優(yōu)于 π0.5。

G0.5 在 7 個獨立評測場景中全面領(lǐng)先,核心數(shù)據(jù)如下:






真實世界微調(diào)評測:在 R1 Pro / R1 Lite 的六個任務(wù)-本體設(shè)置上,G0.5(深橙)在成功率與過程分上整體大幅領(lǐng)先 π0.5 與 GR00T-N1.7。

DROID 零樣本評測:無任何該機器人微調(diào),G0.5 在 10 個桌面操作任務(wù)上平均成功率 82.5%,逐任務(wù)均優(yōu)于 π0.5-DROID 與 MolmoAct2-DROID。
Pick-and-Place 基準:從零樣本到 50 小時后訓練,G0.5(深色)在“語言跟隨率”與“任務(wù)成功率”兩項指標上,各數(shù)據(jù)規(guī)模均優(yōu)于 π0.5
從這些結(jié)果中,我們可以看見:
?大規(guī)模預(yù)訓練使 G0.5 獲得了具身基礎(chǔ)模型的關(guān)鍵能力。在此基礎(chǔ)上,僅需輕量后訓練即可在 7個基準上超越 π0.5 并取得了SOTA的效果, 驗證了該預(yù)訓練范式的有效性。
?零樣本開箱即用:DROID(Franka)和 PP Bench(R1 Lite)兩項零樣本泛化實驗表明,G0.5 的預(yù)訓練智能可以直接遷移到任何同型號機器人平臺和一個全新的環(huán)境。
?單模型泛化與性能優(yōu)勢:在 BEHAVIOR-1K 挑戰(zhàn)賽的 50 個長程移動操作家居任務(wù)評測中,僅憑單一模型權(quán)重,G0.5 只需后訓練1個 epoch(0.29)便顯著超越了多模型集成的冠軍方案與 π0.5,并在4個 epoch 下進一步提升至 0.31,展現(xiàn)出更高的性能上限,超過半數(shù)任務(wù)表現(xiàn)更優(yōu)。
?預(yù)訓練表征克服長程任務(wù)瓶頸:這直接驗證了基于結(jié)構(gòu)化動作空間與視覺記憶的預(yù)訓練先驗,才是模型跨越長程移動操作鴻溝、實現(xiàn)高效泛化的核心所在。
G0.5是星海圖具身基礎(chǔ)模型的重要升級:
?不再把 VLM 當編碼器,而是讓它重新成為行動者;
?不再割裂推理與動作,而是讓模型邊思考邊行動;
?不再只執(zhí)行預(yù)設(shè)程序,而是讓模型聽得懂“怎么做”、記得住“發(fā)生了什么”。
我們相信,通用具身智能需要一條可擴展的模型和數(shù)據(jù)路徑。接下來,我們將在更多機器人數(shù)據(jù)、更復(fù)雜的環(huán)境、更長的任務(wù)時序中繼續(xù)推進。
后續(xù)模型開源后,G0.5 也將支持在多種本體上的“開箱即用”部署,助力開發(fā)者開展落地實踐。
技術(shù)報告已完整公開:
https://opengalaxea.github.io/G05/
https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf