世界模型首次進入行動決策閉環，星源智ω-EVA具身交互世界模型落地

本文作者：齊鋮湧

2026-06-14 15:31

導語：模型學會"三思而后行"

6月13日，雷峰網(公眾號：雷峰網)在北京智源大會現場見到一個場景，一臺機械臂面對一塊被觀眾隨機打亂的華容道棋盤，陷入了"沉思"。它沒有立即動手，而是在潛在空間中預演了每一步滑塊移動可能帶來的連鎖反應——如果先移這塊，后續路徑是否會被堵死？

如果換一條路線，能否為曹操的出逃留出通道？幾秒鐘后，機械臂開始落子，每一步都伴隨著對下一步棋局的重新推演，直至棋局復原。

這不是一場簡單的邏輯編程演示，而是星源智發布的全球首個具身交互世界模型ω-EVA（Omega-EVA）的首次公開亮相。

世界模型首次進入行動決策閉環，星源智ω-EVA具身交互世界模型落地

在具身智能賽道普遍追逐"讓機器人動起來"的當下，星源智試圖回答一個更本質的問題：機器人能否在行動之前，先理解自己的動作將帶來什么后果？

從VLA到世界模型：具身智能的"開環"困境

過去兩年，具身智能領域最熱門的技術路線是VLA（Vision-Language-Action，視覺-語言-動作模型）。這類模型讓機器人能夠"看懂"指令并生成動作，本質上是一種高級的模仿學習。但VLA有一個天然的結構性缺陷：它是開環的。模型根據當前觀察直接輸出動作，一旦執行，便無法在執行前預判這個動作會不會導致碰撞、失衡或任務失敗。

世界模型首次進入行動決策閉環，星源智ω-EVA具身交互世界模型落地

"VLA就是單純的模仿學習，要訓出比較好的模型需要的數據質量要很高，需要都是成功的數據。"星源智聯合創始人、智源研究院具身交互世界模型實驗室負責人孫振國在專訪中坦言。更關鍵的是，VLA模型生成的動作與對未來的預測之間沒有形成閉環——它不會想"如果我這樣抓，杯子會不會滑脫"。

這正是世界模型被引入具身智能的核心原因。世界模型（World Model）原本是一個更寬泛的概念，從視頻生成到3D空間重建，各路玩家都在冠以"世界模型"之名。但在星源智的定義中，面向機器人的世界模型必須收斂到一個具體目標：理解物理世界的動態變化，并預測"如果我執行某個動作，世界將如何響應"。

"機器人面對的是一個連續變化的物理世界，物體會移動，接觸會改變，環境狀態也會因為機器人的動作而持續演化。"孫振國在演講中指出。如果機器人不能在行動前完成一次"后果預演"，那么它面對真實世界的復雜任務時，成功率將始終停留在實驗室內。

ω-EVA的三重門：Envision、Verify、Act

ω-EVA的命名本身即揭示了其技術邏輯：Envision（預演）、Verify（驗證）、Act（行動）。這不是三個獨立的模塊，而是一個完整的控制閉環。

世界模型首次進入行動決策閉環，星源智ω-EVA具身交互世界模型落地

在傳統的世界模型路線中，模型往往只負責"預測未來"——給定當前狀態，生成未來的視頻或隱空間特征。但預測本身并不直接修正動作。星源智的創新在于，他們設計了一個"交互"接口，讓策略模型（Policy）和世界模型在單次決策循環內實時對話。

具體而言，ω-EVA采用三階段訓練架構：

第一階段是Action-conditioned Latent World Model（動作條件化的隱空間世界模型）。模型接收當前視覺特征和候選動作片段，預測該動作將誘導出的未來視覺特征。這里的關鍵在于"動作條件化"——模型必須學會"因為做了這個動作，所以場景這樣變化"，而非泛泛地預測未來。這迫使模型關注與動力學直接相關的區域：末端執行器、被操作物體、接觸區域。

第二階段是World-aware Action Generator（世界感知動作生成器）。基于第一階段形成的動力學感知表征，系統生成初始動作提案（Action Proposal）。這個動作已經蘊含了對物理規律的理解，但仍是"第一稿"。

第三階段是Imagined-interaction Action Refiner（想象交互動作修正器）。這是ω-EVA最具原創性的設計。系統將第二階段生成的動作提案重新送回第一階段凍結的世界模型，得到該提案誘導出的隱空間后果（Latent Consequence）。隨后，修正器聯合"當前狀態+想象后果+原始提案"，直接重寫輸出最終動作片段。

"未來不是生成給人看的，而是反饋給動作生成過程的。"孫振國強調。這意味著ω-EVA中的Verify不是傳統意義上的外部打分，而是一種后果感知的動作重寫。機器人不是在執行后判斷對錯，而是在執行前讓候選動作接受一次世界模型的"壓力測試"。

實驗數據驗證了這一閉環的價值。在LIBERO、LIBERO-PLUS和RoboTwin 2.0三個仿真基準上，ω-EVA在僅依賴任務特定數據、無額外預訓練的情況下，達到了SOTA水平。其中在LIBERO上平均成功率達98.6%，在RoboTwin上經過修正器后將成功率從88.9%提升至90.3%。值得注意的是，這一成績是在僅1.2B參數規模下取得的。

為什么不做"視頻生成"？一場關于路線與成本的豪賭

當前世界模型領域存在幾條鮮明的技術路線：以視頻生成為底座的路線（如Motus、DreamZero）、面向表征學習的隱空間預測路線（如LeCun的JEPA/VLA-JEPA）、以及將世界模型作為數據生成器的路線。星源智選擇了隱空間預測，但更進一步將其拉入動作閉環。

在專訪中，孫振國明確解釋了為何不選擇視頻生成路線："以語言為條件的視頻生成模型在具身領域最大的瓶頸，是不能做很好的動作和預測視頻的對齊。"視頻生成追求像素保真度，而動作生成追求物理可行性，兩者的優化目標在損失函數層面"本質上是打架的"。如果給視頻生成loss更高權重，動作質量就會受損；反之亦然。

更重要的是工程化落地的現實。視頻生成模型即便在桌面級GPU上運行，目前技術極限也僅能保證約7赫茲的推理頻率，且模型參數量巨大，無法在機器人端側實時部署。"如果機器人作為一個Agent來看的話，必然是要做閉環的事情，不能是拿到反饋幾秒后的事情，這是非常危險的。"孫振國指出，"基于這個前提，我們堅定地認為模型需要在端側，而且要以相對高的推理頻率運行。"

ω-EVA的解決方案是將所有后果推理壓縮在隱空間（Latent Space）完成，不解碼為像素級視頻。這使得1.2B參數的模型能夠在端側算力平臺上以高幀率運行。正如星源智創始人&CEO劉東所言："所有感知決策的結果必須在端側運行，快速看到數據，模型推理完了至少要以10赫茲的執行頻率去執行。"

這一選擇還帶來了數據效率的優勢。VLA依賴高質量成功數據，數據利用率極低（工作8小時可能僅產出3小時有效數據）。而世界模型可以利用失敗軌跡進行訓練，數據利用率可提升至6-7小時。"對于世界模型來說，哪怕是最終失敗的這些軌跡也是可以利用起來的。"孫振國表示。在具身領域數據瓶頸極為突出的當下，這直接降低了數據采集成本。

端側算力與產品矩陣：讓大腦"裝進"機器人

模型再先進，若無法嵌入機器人本體，便只是實驗室的玩具。星源智的另一重壁壘在于端側算力平臺的工程化能力。

公司圍繞端側智能構建了完整的具身大腦算力產品體系：面向高性能本體部署的N5、面向量產機器人與多類本體適配的T5，以及面向靈活擴展的算力背包。其中T5已搭載于智元精靈G2機器人，內置NVIDIA Jetson Thor處理器，算力達2070 TFLOPS，支持大型Transformer模型加速。

"我們模型本身開發的時候就是面向具身在端側能夠獨立部署，能夠快速跑行的模型架構設計的。"劉東在回應端側部署質疑時強調。這意味著星源智從模型架構設計之初就考慮了算力約束，而非先訓練一個大模型再想辦法壓縮。

在產品層面，星源智形成了"具身大腦+場景解決方案"的矩陣。RoboBrain Pro作為核心大腦，搭配NavBrain導航系統，已落地于多個場景：具身叉車（解決物流場景卡車形態各異、貨物不統一的柔性卸貨問題）、機器狗清潔官（開放環境下的垃圾識別與撿拾）、流水線智能分揀（動態目標識別與連續流程判斷），以及咖啡服務等精細操作場景。

"賣鏟子"的商業模式：為什么不做本體？

在具身智能賽道，一個尖銳的問題是：做大腦的公司，會不會被做本體的公司拋棄？特別是當頭部本體公司紛紛宣稱要自研"全棧"時。

劉東對此有清醒的判斷："現在市面上整個做具身的公司其實有接近兩百家，按照正常的商業邏輯，在真正的銷量沒有起來之前是沒有辦法支撐一個公司做全棧研發投入的，除非是你已經大到像特斯拉這種規模。"

星源智選擇了一條類似自動駕駛領域Momenta或華為的道路：專注具身大腦，與本體廠商合作。公司覆蓋70%以上的頭部本體客戶，合作形式靈活——既有一整套"模型+算力平臺+傳感器"的交鑰匙方案，也有僅提供三維空間識別、導航或基礎算力的模塊化服務。

這種分工在叉車案例中體現得尤為明顯。傳統叉車自動化依賴基于規則的GVE方案，面對形態各異的卡車和貨物時泛化能力極差。星源智將世界模型策略用于具身叉車后，機器人能夠泛化識別各種情形，自主規劃卸貨邏輯，避免碰撞和遺漏。"從各種叉車類的公司來說，他們想升級到整個具身智能的算法瓶頸還是比較高的。"劉東指出，"從具身公司的角度，他們想切入這個場景是需要很深的行業Knowhow和行業數據的。"

星源智的角色，用劉東的話說，是"這個行業賣鏟子的人"。每家本體公司要造幾千臺機器人進行數據采集，幾十家本體公司便構成了龐大的算力與模型需求市場。而星源智通過提供大腦模型和端側Infra，成為產業鏈中不可或缺的賦能方。

具身智能的"2015時刻"：世界模型的下一站

如果把具身智能與自動駕駛類比，劉東認為行業當前處于"2015、2016年剛剛起步的狀態"——大家瞄著L4、L5去做，但真正的L2落地還不多。這意味著賽道仍處于早期，但結構化場景已經具備落地條件。

對于世界模型的技術路線，孫振國將其分為四類：視頻生成增強策略、隱空間表征學習、數據生成器，以及星源智提出的"交互式世界模型"。他判斷，未來世界模型必將收斂到與物理世界實時交互的范式上，因為"如果只是把世界模型作為訓練輔助，去約束表征空間，它只是發揮了世界模型很小的一部分"。

更具前瞻性的方向是"自進化"。世界模型天然適合終身學習：執行動作后獲得真實反饋，與預測對比并修正偏差，模型便可"越用越好"。孫振國透露，團隊此前在《Nature Machine Intelligence》上發表過相關研究，目前智源研究院仍有持續項目推進這一方向。

在數據安全與商業壁壘方面，星源智采取"一事一議"的數據合作模式，部分場景數據充分共享，部分客戶數據歸客戶所有，公司僅提供基礎模型。同時接受國家數據局指導，在數據流轉和訓練環節進行脫敏處理。

結語

當行業還在爭論世界模型應該生成多長的視頻、需要多大的算力時，星源智用ω-EVA給出了一個更務實的答案：世界模型不該只用來"看未來"，而應該用來"改動作"。

從華容道棋盤上的一步三思，到叉車面對未知卡車時的自主規劃，ω-EVA試圖證明的不僅是技術路線的先進性，更是具身智能商業化的可行性。在1.2B參數的輕量架構中塞進一個"預演-驗證-行動"的閉環，這既是工程能力的體現，也是對機器人本質的回歸——智能不僅是感知與生成，更是在行動之前，對后果的敬畏與修正。

具身智能的競賽，正從"誰能生成更酷的視頻"轉向"誰能讓機器人在真實世界里少犯一次錯"。星源智的賭注是：后者才是產業落地的真正起點。（雷峰網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

齊鋮湧

編輯

發私信

當月熱門文章