星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

本文作者：小七

2026-06-01 20:33

導(dǎo)語：第一代“邊想邊干"的機器人模型，從執(zhí)行動作到理解世界。

過去，機器人聽到“幫我把毛巾放進洗手池”——它只會機械地執(zhí)行一串預(yù)設(shè)動作。現(xiàn)在，我們讓G0.5做到了：先想——毛巾在哪？洗手池在哪？應(yīng)該先拿起毛巾，再移動過去，最后放下。邊思考，邊行動。

這一能力依托于我們最新的 VLA（視覺-語言-行動）模型架構(gòu)設(shè)計：讓同一個模型、同一套權(quán)重，同時完成推理與行動，讓機器人擁有“行動中的思考能力”。

言出法隨：零樣本泛化至新物體、新環(huán)境、新指令

G0.5 在 R1 Lite 機器人上，零樣本（未經(jīng)任何該場景的微調(diào)），僅憑自然語言指令直接驅(qū)動機器人完成操作任務(wù)。模型從未見過當前的環(huán)境布局、物體類別和指令組合，卻能實時理解指令意圖、分解動作并輸出流暢的雙臂控制。

這正是 G0.5 “言出法隨”的開箱即用能力——一個模型，一句話，直接干活。

從“記住任務(wù)”到“學會操作”

過去，機器人學習一項新任務(wù)通常意味著：重新采集數(shù)據(jù)、重新微調(diào)模型、重新適配場景。它們可以出色地完成被訓練過的任務(wù)，卻很難泛化到新的物體、新的環(huán)境和新的指令。

我們通過大規(guī)模、多任務(wù)預(yù)訓練，讓 G0.5 形成了可遷移、可組合的操作智能。抓取、放置、推拉、開合、移動等原子動作，不再是單個任務(wù)中的固定片段，而是沉淀為模型可以復(fù)用的能力單元。

在面對新的場景、空間布局和從未見過的物體時，僅憑自然語言指令，G0.5 就能直接執(zhí)行操作，機器人開始 “邊思考邊行動”（Think While Acting）。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

三大核心能力：讓具身基礎(chǔ)模型學會“邊想邊干”

1. 統(tǒng)一異構(gòu)動作編解碼器：讓一種“動作語言”覆蓋所有機器人

不同機器人的形態(tài)、自由度、控制頻率千差萬別——雙臂人形、移動底盤、單臂工業(yè)機器人，每一種都有各自的動作維度。過去的做法，要么每種機器人單獨搞一套（如 FAST 用固定的 DCT 流水線為每種 embodiment 各自離散化），要么把所有自由度拍平成一個長向量再做量化。前者無法跨本體共享知識，后者會讓 token 數(shù)量隨總自由度線性膨脹——哪怕當前這一步只是手指動一下，模型也得為所有關(guān)節(jié)生成 token，浪費嚴重，而且語義高度糾纏、遷移性差。

我們認為，動作 token 本應(yīng)像語言一樣既結(jié)構(gòu)化又稀疏。為此我們設(shè)計了一套統(tǒng)一的異構(gòu)動作編解碼器。得益于這套設(shè)計，G0.5 用一套動作詞表就能涵蓋從桌面雙臂到全身移動操作的各類本體，自回歸解碼帶來的額外開銷也被控制在可接受范圍內(nèi)——這正是我們能把 VLM 重新放回“動作生成者”位置、而不是退化為條件編碼器的關(guān)鍵前提。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

G0.5 Action tokenizer

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

2. 原生動作思維鏈：讓機器人不僅“邊思考邊行動”，還聽得懂“怎么做”

統(tǒng)一動作詞表讓我們可以把 VLM 重新放回“動作生成者”的位置。這件事真正的回報，是 VLM 在預(yù)訓練中習得的生成式能力——鏈式思維、上下文學習、prompt 調(diào)制——可以原生作用于動作生成，而不必先穿過 VLM-as-Encoder 架構(gòu)里那個“條件編碼”的壓縮瓶頸。

多數(shù)現(xiàn)有工作中，鏈式思維（CoT）只是訓練時的輔助任務(wù)，推理模塊和動作模塊被割裂在兩套參數(shù)、兩個目標里——推理結(jié)果想影響動作，必須先被壓成一段隱狀態(tài)再喂給下游 expert，中間既有語義損失，延遲也不可控。我們認為應(yīng)回歸本源，將 CoT 與動作生成融合在同一個自回歸流中：模型會先輸出子任務(wù)分解、目標物體框、2D 軌跡提示等推理結(jié)果，再輸出動作 token。

這套設(shè)計帶來兩個可分別驗證的收益:

?長程任務(wù)的零樣本分解能力：在 BEHAVIOR-1K 這類需要將自然語言指令拆解成數(shù)十個子步驟的家居任務(wù)上，單個 G0.5 checkpoint 僅訓練一個 epoch 即超過訓練四個 epoch 的 π0.5 ,也超過由四個 checkpoint 組成的 Challenge 冠軍方案。在預(yù)訓練分布外的家居任務(wù)上,模型同樣能零樣本完成子任務(wù)分解。

?語言對行為的實時塑造：因為 prompt 直接進入和動作 token 同一條 AR 流，自然語言可以在推理時連續(xù)調(diào)制動作分布，無需重新訓練。作為一個代表性的定性示例，在“打開烤面包機開關(guān)”任務(wù)上，由于開關(guān)行程較長，僅給“打開開關(guān)”指令時模型的按壓力度不夠；一旦在指令中追加“push harder”，模型會明顯加大下壓力度并最終觸發(fā)開關(guān)。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動 G0.5 在 R1 Lite 上零樣本執(zhí)行“把毛巾放進洗手池”：在同一自回歸流中，模型先生成思考（子任務(wù)、目標物體框），再輸出動作 token，并從每一幀觀測閉環(huán)重規(guī)劃。

3. 時空注意力模塊：為機器人注入上下文感知先驗

真實的復(fù)雜家居任務(wù)不能僅依賴單幀畫面的“本能反應(yīng)”。當視線被機械臂短暫遮擋，或任務(wù)意外失敗時，機器人必須依賴歷史上下文才能維持穩(wěn)定的空間感知。我們?yōu)?G0.5 配備了輕量級時空注意力模塊，融合數(shù)秒的歷史視覺信息，使模型在局部視野丟失時依然能穩(wěn)健執(zhí)行。

實驗表明，得益于預(yù)訓練階段習得的感知先驗，G0.5 在 BEHAVIOR-1K 中“移動箱子到儲物間”“裝車”“搬木柴”“整理臥室”等長程任務(wù)上穩(wěn)定優(yōu)于 π0.5。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

領(lǐng)跑七大評測場景，全面超越 SOTA

G0.5 在 7 個獨立評測場景中全面領(lǐng)先，核心數(shù)據(jù)如下：

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

真實世界微調(diào)評測：在 R1 Pro / R1 Lite 的六個任務(wù)-本體設(shè)置上，G0.5（深橙）在成功率與過程分上整體大幅領(lǐng)先 π0.5 與 GR00T-N1.7。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動

DROID 零樣本評測：無任何該機器人微調(diào)，G0.5 在 10 個桌面操作任務(wù)上平均成功率 82.5%，逐任務(wù)均優(yōu)于 π0.5-DROID 與 MolmoAct2-DROID。

星海圖新一代具身基礎(chǔ)模型G0.5發(fā)布，全面提升零樣本泛化能力，讓機器人邊思考邊行動 Pick-and-Place 基準：從零樣本到 50 小時后訓練，G0.5（深色）在“語言跟隨率”與“任務(wù)成功率”兩項指標上，各數(shù)據(jù)規(guī)模均優(yōu)于 π0.5

從這些結(jié)果中，我們可以看見：

?大規(guī)模預(yù)訓練使 G0.5 獲得了具身基礎(chǔ)模型的關(guān)鍵能力。在此基礎(chǔ)上，僅需輕量后訓練即可在 7個基準上超越 π0.5 并取得了SOTA的效果, 驗證了該預(yù)訓練范式的有效性。

?零樣本開箱即用：DROID（Franka）和 PP Bench（R1 Lite）兩項零樣本泛化實驗表明，G0.5 的預(yù)訓練智能可以直接遷移到任何同型號機器人平臺和一個全新的環(huán)境。

?單模型泛化與性能優(yōu)勢：在 BEHAVIOR-1K 挑戰(zhàn)賽的 50 個長程移動操作家居任務(wù)評測中，僅憑單一模型權(quán)重，G0.5 只需后訓練1個 epoch（0.29）便顯著超越了多模型集成的冠軍方案與 π0.5，并在4個 epoch 下進一步提升至 0.31，展現(xiàn)出更高的性能上限，超過半數(shù)任務(wù)表現(xiàn)更優(yōu)。

?預(yù)訓練表征克服長程任務(wù)瓶頸：這直接驗證了基于結(jié)構(gòu)化動作空間與視覺記憶的預(yù)訓練先驗，才是模型跨越長程移動操作鴻溝、實現(xiàn)高效泛化的核心所在。