0
| 本文作者: 小七 | 2026-06-17 18:34 |

編輯丨李希
近日,銀河通用創(chuàng)始人兼首席技術(shù)官、北京大學(xué)研究員王鶴博士在 2026 年北京智源大會(huì)“具身智能與人形機(jī)器人”專題論壇上,首次指出人形機(jī)器人的“AlphaGo”及“ChatGPT”時(shí)刻已經(jīng)到來。
王鶴博士發(fā)表了題為《推動(dòng)人形機(jī)器人的“AlphaGo”及“ChatGPT”時(shí)刻》的演講,系統(tǒng)性闡述了銀河通用取得的全球首創(chuàng)性突破,并清晰展示了其基座大模型“銀河星腦(AstraBrain)”的完整技術(shù)脈絡(luò)。他認(rèn)為,數(shù)字 AI 從“AlphaGo”到 “ChatGPT” 的演進(jìn)路徑為具身智能提供了清晰參照:先在一個(gè)復(fù)雜任務(wù)上超越人類,再通過規(guī)模化走向通用。

在“專”的層面,銀河通用實(shí)現(xiàn)了兩項(xiàng)全球首創(chuàng)性突破:一是全球首個(gè)面向網(wǎng)球?qū)沟娜诵螜C(jī)器人全身實(shí)時(shí)智能規(guī)控系統(tǒng),實(shí)現(xiàn)完全自主的機(jī)器人打網(wǎng)球,一經(jīng)發(fā)布后引發(fā)特斯拉 CEO 埃隆·馬斯克、Andrej Karpathy等全球頂尖 AI 專家的高度關(guān)注;二是以春晚“盤核桃”為代表的靈巧操作能力,銀河通用提出的靈巧手神經(jīng)動(dòng)力學(xué)模型(DexNDM)全球唯一實(shí)現(xiàn)了靈巧手“轉(zhuǎn)筆”從仿真到真實(shí)部署。
在“通”的層面,銀河通用自主研發(fā)的“銀河星腦(AstraBrain)”是全球首個(gè)集成“大腦-小腦-神經(jīng)控制”于一模的端到端具身大模型。其核心技術(shù)路線“世界-動(dòng)作模型”(WAM)由銀河通用團(tuán)隊(duì)于2025 年在計(jì)算機(jī)視覺頂會(huì) ICCV 上首次提出,如今已成為具身智能領(lǐng)域公認(rèn)的下一代技術(shù)方向。在此基礎(chǔ)上,銀河通用發(fā)布了通用大腦 AstraBrain WAM 0.5,全球首次實(shí)現(xiàn)虛實(shí)共融、人機(jī)混合、質(zhì)量參差、有無動(dòng)作標(biāo)簽的數(shù)據(jù)統(tǒng)一有效利用;通用小腦 AstraBrain-WBC 0.5 則在全身閉環(huán)控制與實(shí)時(shí)指令跟隨方面世界領(lǐng)先。
從“ AlphaGo” 時(shí)刻到 “ChatGPT” 時(shí)刻,數(shù)字 AI 用十年走完了從專到通的路。當(dāng)“銀河星腦”驅(qū)動(dòng)機(jī)器人在真實(shí)場(chǎng)景中自主思考與操作,具身智能的“通用時(shí)刻”正加速到來。作為這一進(jìn)程的先行者與引領(lǐng)者,銀河通用正在定義人形機(jī)器人從“專”到“通”的技術(shù)路線,更以完整的全棧自研能力引領(lǐng)具身智能邁向真正的“通用”未來。
王鶴:今天在座的很多來賓,真正關(guān)心的是人形機(jī)器人究竟什么時(shí)候能形成生產(chǎn)力、進(jìn)入千行百業(yè)。
這背后的核心技術(shù)問題,其實(shí)是如何實(shí)現(xiàn)通用機(jī)器人。所謂通用機(jī)器人,是指它像人一樣擁有一個(gè)能無縫融入人類社會(huì)的身體,同時(shí)像人一樣既有大腦、又有小腦結(jié)構(gòu)的,由具身智能驅(qū)動(dòng)的機(jī)器人。

我們先來看看,數(shù)字世界里的人工智能是如何一步步走向通用的。我相信,這對(duì)于理解今天具身智能所處的時(shí)刻、以及思考該如何發(fā)展具身智能,都有非常重要的意義。

總體來看,可以梳理出幾個(gè)里程碑:
第一個(gè)是 “AlphaGo” 時(shí)刻。
智能要先從專走到通,“專”這一步,“AlphaGo” 直接挑戰(zhàn)了人類最復(fù)雜、最難的棋類游戲——圍棋,并在 2016 年首次擊敗了世界冠軍。在 AI 足夠?qū)>院螅?/span>GPT 系列引領(lǐng)了通用的過程:從 GPT 到 GPT-2 再到 GPT-3,一步步定義了 Scaling-up 的范式,用一個(gè)模型完成各種自然語言任務(wù)。
直到 2022 年,我們迎來了 “ChatGPT” 時(shí)刻,一個(gè)能與人自由對(duì)話,幾乎你跟它說什么,七八成回答都讓你滿意的模型橫空出世。所有 OpenAI 的用戶當(dāng)天就體驗(yàn)到了它的威力。直到今天,這仍然是 GPT 一路走來,大家記憶最深的一個(gè)節(jié)點(diǎn)。
今天,數(shù)字智能正走在通往 AGI(通用人工智能)的路上,我們還沒有抵達(dá),但這條賽道上已經(jīng)誕生了萬億美金估值的創(chuàng)業(yè)公司,涌現(xiàn)出了大量應(yīng)用。
具身智能在時(shí)間線上比數(shù)字智能晚了幾年。我認(rèn)為,它要做的第一件事同樣是先突破專、精:需要找到一個(gè)足夠復(fù)雜的任務(wù),復(fù)雜到能把一個(gè)通用人形機(jī)器人全身的各種能力都調(diào)用出來。一旦突破它,就意味著離走向通用越來越近。那么,什么樣的任務(wù)值得被定義為具身智能的 “AlphaGo” 時(shí)刻?
銀河通用選擇了打網(wǎng)球。

在所有運(yùn)動(dòng)場(chǎng)景中,網(wǎng)球是對(duì)人形機(jī)器人最具挑戰(zhàn)性的任務(wù)之一。在快速的來回對(duì)拉中,機(jī)器人必須應(yīng)對(duì)無法預(yù)測(cè)的落點(diǎn)和不斷變化的球路。這是世界上第一次實(shí)現(xiàn)、也是目前唯一一例人形機(jī)器人全自主打網(wǎng)球,沒有任何遙控、沒有任何人為介入。機(jī)器人在毫秒級(jí)別內(nèi)完成判斷,從機(jī)械地模仿動(dòng)作跨越到由智能決策驅(qū)動(dòng)的響應(yīng),能夠與人持續(xù)對(duì)拉而不中斷。我們看到,網(wǎng)球的高動(dòng)態(tài)性以及它對(duì)全身的調(diào)動(dòng)能力,足以讓它成為一個(gè)足夠復(fù)雜的球類運(yùn)動(dòng)。

事實(shí)上,這項(xiàng)工作一經(jīng)發(fā)布到海外視頻網(wǎng)站上,Elon Musk 本人立即評(píng)論了一句 “insane”。隨后陸續(xù)有研究者指出,這些都是與我們沒有利益關(guān)系的客觀評(píng)論者,評(píng)論道:AlphaGo for every sport is coming.(各項(xiàng)運(yùn)動(dòng)的“AlphaGo” 時(shí)刻都要來了。)過去機(jī)器人打乒乓球、做其他運(yùn)動(dòng),大家并沒有把它和 “AlphaGo” 聯(lián)系在一起。

但打網(wǎng)球這件事,讓國際技術(shù)社區(qū)認(rèn)為,這標(biāo)志著具身智能的“AlphaGo”時(shí)刻即將來臨。
不只是 Musk,AI 圈著名研究者 Andrew Kang 也有強(qiáng)烈反應(yīng):他第一次看到這個(gè)視頻時(shí),認(rèn)為這是視頻生成軟件做出來的假視頻,而不是真的人形機(jī)器人在打網(wǎng)球。為什么像 Musk、Kang 這樣資深的人工智能乃至具身智能專家,會(huì)對(duì)打網(wǎng)球有這么大的反應(yīng)?為什么打網(wǎng)球這么難?
實(shí)際上,網(wǎng)球既需要 low-level 的全身控制,尤其是手,如果手腕控制球拍稍有不準(zhǔn),球沒有落在球拍中心的甜區(qū)(sweet zone),回球就會(huì)非常不準(zhǔn)。同時(shí),對(duì)打時(shí)又涉及大量策略(strategy),比如打空當(dāng)、前后吊球,這些策略又是非常 high-level 的。這樣一個(gè)任務(wù),同時(shí)要求 low-level 和 high-level 精準(zhǔn)有效地結(jié)合在一起,這正是打網(wǎng)球的突破對(duì)人形機(jī)器人定義 “AlphaGo” 時(shí)刻幾乎是決定性的原因。

算法上,我們從人類運(yùn)動(dòng)員的動(dòng)作捕捉中獲得了大量人類運(yùn)動(dòng)的先驗(yàn)分布,把這些先驗(yàn)retarget 到人形機(jī)器人上,學(xué)習(xí)了一個(gè) CVAE 來capture 運(yùn)動(dòng)的 motion prior,后續(xù)的強(qiáng)化學(xué)習(xí)就在這個(gè) CVAE 的 latent space 里展開。這樣既保證了打網(wǎng)球的動(dòng)作自然地落在人類運(yùn)動(dòng)的分布里,不會(huì)做出一些很奇怪的使用球拍的動(dòng)作,也大大加快了強(qiáng)化學(xué)習(xí)收斂的速度。

這里還有一個(gè)有意思的點(diǎn):手腕。
我們發(fā)現(xiàn),如果手腕也通過 latent space 來學(xué)習(xí),由于重建本身存在不精準(zhǔn),擊球會(huì)不夠準(zhǔn)確。因此,手腕的三個(gè)自由度是單獨(dú)建模、直接端到端控制的,如此我們就實(shí)現(xiàn)了能與人類連續(xù)對(duì)打幾十拍的網(wǎng)球水平。

這背后離不開銀河通用在全域數(shù)據(jù)運(yùn)用上的長期發(fā)力。
“AlphaGo” 在數(shù)字世界下棋和在物理世界下棋是同一個(gè)游戲,不存在 Sim-to-Real 的問題。我們的網(wǎng)球是在機(jī)器人訓(xùn)練之后,要求它能直接部署到真實(shí)世界里與人對(duì)打,這中間的 Sim-to-Real gap 非常困難,攻克它也給所有做人形機(jī)器人的人極大的信心。
有人會(huì)問:你只用到了手腕,那手有沒有用上?
今年春晚,我們展示了靈巧手盤核桃的技能。這同樣是在仿真器里大量強(qiáng)化學(xué)習(xí)后,再transfer 到真實(shí)世界的。由于靈巧手是典型的 contact-rich 場(chǎng)景,很多人質(zhì)疑靈巧手的強(qiáng)化學(xué)習(xí)能不能做 Sim-to-Real。我們通過在仿真器里構(gòu)建一個(gè)較為真實(shí)的碰撞模型,讓學(xué)到的policy 可以直接部署到真實(shí)世界,但 performance 只能達(dá)到中庸。
在回收大量真實(shí)數(shù)據(jù)之后,我們訓(xùn)練了一個(gè)靈巧手神經(jīng)動(dòng)力學(xué)模型,或者用一個(gè)更簡單的詞匯——靈巧手世界模型,來彌合真實(shí)與仿真之間的差距,用這個(gè) DexNDM 回傳梯度去更新靈巧手的 policy,從而實(shí)現(xiàn)從仿真到真實(shí)的高保真遷移。

今天的這套 policy(DexNDM)可以操作各種不同的工具、完成各種不同的任務(wù)。它是一個(gè)通用的靈巧手控制器,手內(nèi)旋轉(zhuǎn)、手內(nèi)重定向、物體使用等一般性操作,在 Sim-to-Real 之后都能很好地完成。我們展現(xiàn)的就是一個(gè)通用的靈巧手內(nèi)操作。
有人會(huì)問:你和其他靈巧手的 demo 有什么區(qū)別?左邊是 Figure 開瓶蓋,仔細(xì)看它的行為,抓住、攥緊、一起擰,再抓住、攥緊、一起擰;換成更細(xì)長的螺絲,其實(shí)是同一回事,多指之間配合擰螺絲。我們是連貫的動(dòng)作,它就是抓住、一起擰、松開,為什么?

遙操作時(shí)很難采集到多指之間的精細(xì)配合,只能抓住、一起攥、松開。這種采集上的天然劣勢(shì),導(dǎo)致學(xué)出來的 policy 看起來不是最高效、最自然的。而我們用強(qiáng)化學(xué)習(xí)學(xué)出來的技能,和人類一樣,最高效、最精準(zhǔn)。
左邊還有一個(gè)例子,是英偉達(dá)在仿真器里做的轉(zhuǎn)筆。有人會(huì)問:是不是別人都不做仿真器里的強(qiáng)化學(xué)習(xí)?其實(shí) NVIDIA 早在 2023 年就展示了靈巧手轉(zhuǎn)筆,但這項(xiàng)工作遲遲無法 Sim-to-Real,無法在真實(shí)世界里看到靈巧手的操作。而銀河通用運(yùn)用 DexNDM,在全球范圍內(nèi)目前也是唯一實(shí)現(xiàn)了真機(jī)轉(zhuǎn)筆。

在 ICRA 大會(huì)做主旨報(bào)告時(shí),我問在座全球的機(jī)器人學(xué)者:你們有多少人會(huì)轉(zhuǎn)筆?很多人其實(shí)轉(zhuǎn)不了。所以我問大家,這是不是靈巧手的“AlphaGo時(shí)刻”?答案是肯定的。
到這里,我們通過全身、全手的各種挑戰(zhàn)性技能,已經(jīng)在“專、精”上做出了突破。下一步,是如何從“專”走向“通”,如何定義具身智能的 “ChatGPT” 時(shí)刻?這需要我們擁有一個(gè)像人一樣的“大腦”和“小腦”。
銀河通用推出的 AstraBrain(銀河星腦),目標(biāo)就是做一個(gè)通用人形機(jī)器人的基座:既有大腦、又有小腦,中間通過腦橋連接,讓更快的小腦與相對(duì)較慢的大腦實(shí)現(xiàn)異步同步。人腦中的腦橋?qū)嶋H上分為三路、有上傳也有下載,我們的架構(gòu)充分參考了人類大腦的結(jié)構(gòu),目標(biāo)就是實(shí)現(xiàn)完全通用。

剛才看了很多打網(wǎng)球、靈巧手的內(nèi)容,我們?cè)賮砜纯催@背后的大腦應(yīng)該是什么樣子。
今天的大腦迎來了一個(gè)新范式:World Action Model(WAM)。它把 Google 提出的VLA,和 OpenAI Sora 展示出來的 world model 融合在了一起。
這種融合并不只是簡單的多任務(wù):因?yàn)槲覀兛吹?/span> VLA 本質(zhì)上是預(yù)測(cè) action,它的動(dòng)作監(jiān)督必須依賴帶 action label 的具身數(shù)據(jù)。而 video generation 不需要 action,完全可以用人類佩戴相機(jī)拍下自己干活的純視頻數(shù)據(jù)來訓(xùn)練,后者擁有更好的 diversity,能 cover 更低的采集成本,更廣的任務(wù)空間,所以它的學(xué)習(xí)能夠幫助 VLA 擴(kuò)展到它的任務(wù)空間,甚至在生成的 image 里隱含了機(jī)器人的手該怎么動(dòng),胳膊該怎么伸。
可以認(rèn)為,前者是一個(gè) explicit 的 action,后者是一種 image representation as action。兩者之間有極強(qiáng)的 synergy 作用,且后者真正把無標(biāo)簽視頻數(shù)據(jù)的能量解放了出來,這才是真正能夠把具身基礎(chǔ)模型 scale-up 的路線。
這也是為什么英偉達(dá)的 Jim Fan 今年接受采訪時(shí)說,WAM 是robotics endgame(機(jī)器人技術(shù)的終局):因?yàn)槲覀兘K于能讓模型吸收各種數(shù)據(jù),真正定義一個(gè) scale-up 的方向。

需要說明的是,第一篇名為 WAM 的論文,是我們(銀河通用)團(tuán)隊(duì)掛到 arXiv 上的。如果今天在 arXiv 上搜索 "world action model" 并按時(shí)間排序,第一篇就是我們的成果,2025 年 ICCV 的文章。

隨著這個(gè)方向得到更多認(rèn)可,銀河通用也在不斷迭代。首先是:我們是否要做 RGB 層面的預(yù)測(cè)。其實(shí)人類對(duì)未來的預(yù)測(cè)做不到 pixel-level 的精細(xì)度。所以在我們 AstraBrain WAM 的大腦部分 0.5 代際,實(shí)際上也是我們 RSS 2026 論文 LDA,第一次提出用 latent space 替代 RGB space 來作為想象的空間。它的分辨率相對(duì)更低,把光照、紋理這些不重要的信息盡可能 factorize 掉,轉(zhuǎn)而關(guān)注背后的動(dòng)作和幾何本身。我們發(fā)現(xiàn),這樣的模型能學(xué)得更好,并且能用更少的數(shù)據(jù)體現(xiàn)出更強(qiáng)的性能。

同時(shí),我們?cè)?/span> 2025 年 UW 中提出的 Unified World Model里,除了 VA/VV 兩個(gè)任務(wù),我們還把前向動(dòng)力學(xué)和逆向動(dòng)力學(xué)這兩個(gè)任務(wù)一起吸收進(jìn) WAM 框架,統(tǒng)一了四個(gè)任務(wù),并用一個(gè)大模型完成了 UWM 沒有做的 scaling up。
今天,我們的 WAM 0.5 在仿真環(huán)境和真實(shí)世界里都展現(xiàn)出很好的基座模型性能。舉一個(gè)做牛排的長程任務(wù)的例子:我們讓機(jī)器人先去抓夾子,再用夾子去夾牛排。本來要夾的是這一片,但我們可以用語言打斷它,讓它改成抽底下那片牛排、再抽出來。夾出我們想吃的那一片之后,把它放進(jìn)盤子里、放下夾子,再給它撒胡椒粉。像這樣的長程任務(wù),我們用 WAM 0.5 這個(gè)模型,經(jīng)過非常少的真機(jī)數(shù)據(jù)就可以訓(xùn)練完成。

可以看到,今天的 AstraBrain WAM 0.5 具備了多任務(wù)能力,覆蓋各種各樣的任務(wù),也包括跨本體(cross-embodiment)的能力,無論是靈巧手、二指夾爪,還是其他類型的機(jī)器人,我們都能讓這個(gè)模型做 cross-embodiment 的泛化。同時(shí),我們也和國際領(lǐng)先的模型做了對(duì)比,比如 π0.5、NVIDIA 的 Groot N1.6,在全部任務(wù)上,我們都超過了 π0.5 和 Groot。

這背后,是我們第一次把合成數(shù)據(jù)、真實(shí)數(shù)據(jù)、以及 egocentric 數(shù)據(jù),大量地全部吸收進(jìn)同一個(gè)模型,這是整個(gè)模型性能的基石。

我們的 scaling curve 證明,這幾類任務(wù)之間、這幾種數(shù)據(jù)之間,都能進(jìn)一步讓 action prediction error 下降。并且對(duì)比來看(右圖灰線是用RGB 做想象、藍(lán)線是用 latent 做想象),latent方案有更好的 scaling behavior。背后海量的egocentric data,是我們實(shí)現(xiàn)scaling curve 的關(guān)鍵。

銀河通用團(tuán)隊(duì) 2021 年就發(fā)布了全球最大的 egocentric 手物交互數(shù)據(jù)集,當(dāng)時(shí)就定義了由人頭戴相機(jī)采集自己干活的視頻,并配套了一整套人手標(biāo)注系統(tǒng),包括手部 hand action label 的提取系統(tǒng)。在 egocentric data 這件事上,銀河通用又一次站在了世界最前沿。

看完通用的大腦,我們還需要真正通用的小腦。今天很多跳舞的視頻,其實(shí)并不是通用的小腦,它只是對(duì)一條運(yùn)動(dòng)軌跡的追蹤,背后只是幾層 MLP。
今天真正重要的,是通用的大腦和通用的小腦。所謂通用小腦,是指有一個(gè)在上方下達(dá)指令的人,可以隨時(shí)給指令、實(shí)時(shí)遙控,讓小腦負(fù)責(zé)閉環(huán)反饋和執(zhí)行。這樣的小腦,上方給它什么動(dòng)作,它就應(yīng)該能執(zhí)行什么動(dòng)作。

今年,我們的 AstraBrain-WBC 0.5,是基于 CVPR 2026 的工作 HumanoidGPT ,這也全球領(lǐng)先的具身智能通用小腦基座大模型。(編者注:相關(guān)工作成果將于近期正式發(fā)布,請(qǐng)關(guān)注銀河通用機(jī)器人官方公眾號(hào))。
如果 WAM 定義了具身智能的 GPT 范式,那 “ChatGPT” 時(shí)刻什么時(shí)候出現(xiàn)?
我認(rèn)為,具身智能在經(jīng)過預(yù)訓(xùn)練之后,要在人類無需專門后訓(xùn)練、無需專門學(xué)習(xí)就能完成的技能上、zero-shot達(dá)到 70% 到 80% 的成功率,這定義了它基模的 capability。
同時(shí)還有一個(gè)重要指標(biāo)是 accessibility:這樣的技術(shù)突破,能不能快速讓所有老百姓都感受到,而不是只存在于一家機(jī)器人公司內(nèi)部。當(dāng)我們的GPT達(dá)到 3.5 的水平之后,機(jī)器人能不能快速部署?
這里就要講我們一項(xiàng)具有革命性的技術(shù),WAM-TTT(test-time training),重新定義具身智能后訓(xùn)練新范式。(編者注:相關(guān)工作成果將于近期發(fā)布,請(qǐng)關(guān)注銀河通用機(jī)器人官方公眾號(hào))。
這些工作,真正能把我們的預(yù)訓(xùn)練成果快速帶到真實(shí)世界,并實(shí)現(xiàn)長期的、終身的部署。一旦我們突破 ChatGPT 時(shí)刻,就會(huì)快速向 AGI 發(fā)起沖刺。
當(dāng)我們抵達(dá) AGI 時(shí)刻,將迎來第四次工業(yè)革命:人形機(jī)器人會(huì)成為一個(gè)有手機(jī)的量、汽車的價(jià),并疊加大模型智能的巨大市場(chǎng),一個(gè)數(shù)萬億美元的市場(chǎng)。
我相信,在座的同行們會(huì)一起為之努力。
謝謝大家。