0
| 本文作者: 陳淑瑜 | 2026-06-11 11:52 | 專題:ICRA 國際機器人與自動化會議 |

作者丨岑峰
2026年6月1日,機器人領域最重要的學術會議國際機器人與自動化會議(ICRA)在奧地利維也納召開。
在首日舉行的“Synthetic Data for Robot Learning” Workshop上,哥倫比亞大學助理教授李昀燭(Yunzhu Li)發表了題為“Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation”的演講,直擊了當今具身智能領域面臨的核心痛點:真實物理交互數據采集成本極高,且模型試錯與評估極其困難。

為此,他提出將結構化世界模型(Structured World Models)作為機器人策略訓練與評估的“無限數據引擎”。演講指出,純端到端大模型缺乏物理常識,而純物理引擎又受限于嚴苛的觀測條件。團隊從而開辟了一條融合兩者優勢的“中間路線”:
1. 在策略評估端:利用“3D高斯濺射(負責渲染)+結構化世界模型(負責物理推演)”為復雜的柔性物體構建高精度數字孿生(Digital Twin)。該系統實現了仿真與現實的高度對齊(Sim-and-Real Alignment),讓大規模的并行策略評估成為可能。
2. 在策略訓練端:開發了無需真實機器人參與的交互式世界模擬器。它能根據動作指令穩定生成包含復雜物理交互的多視角視頻,并從實證角度給出了驚人的結論:在實驗覆蓋的任務和策略架構中,世界模型生成的虛擬軌跡在訓練價值上與真實軌跡表現出高度接近的效果。
總結而言,將3D物理先驗與海量2D數據學習深度融合,是突破機器人基礎模型(Robot Foundation Models)數據瓶頸的必由之路。
(編者按:AI 科技評論此前在《MIT 具身智能達人志》一文中曾提及李昀燭親歷深度學習改變機器人領域的經歷。MIT博士畢業后,李昀燭在哥倫比亞大學任職推進世界模型與多模態感知。)
以下是李昀燭在ICRA 2026大會發表的演講精編稿,AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯:
《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》
主講人:李昀燭(Yunzhu Li),哥倫比亞大學

01
今天我非常榮幸能與各位分享我們在“構建環境結構化世界模型”方向上的最新探索。我將向大家展示,如何將這些世界模型轉化為強大的數據引擎,以賦能機器人策略的訓練與評估。
最近,機器人的某些子領域正經歷著爆炸式的突破——比如現在滿地跑的人形機器人,或者越來越普及的自動駕駛。但當我們把目光轉向“與環境的復雜物理交互”時,我們到底走到了哪一步?離真正人類水平的操作能力還有多遠?
盡管學術界每天都有各種炫酷的 Demo刷屏,但工業界真正大規模部署的,依然是針對規則幾何體的簡單“拾取與放置”機器人。這顯然不是我們的終極愿景。不僅能駕馭結構化環境,還能在充滿未知的非結構化場景中游刃有余;不僅能擺弄剛硬的鐵塊,還能處理柔軟易變的柔性物體,從而勝任長周期、大跨度的復雜任務。要做到這些,系統所需的泛化與適應能力,必須遠遠甩開現有的技術基線。
看到大語言模型和視覺模型的驚人成功后,很多人自然會問:這套基礎模型的打法能直接復刻到機器人上嗎?目前主要有兩條路線:一種類似“搭積木”,將基礎模型與系統結合,構建一些結構化的中間接口,以便將基礎模型的知識傳達給機器人;另一條路線則是“端到端”。構建這種端到端模型通常有兩種方式:從視覺語言模型(VLM)進行預訓練,或者從世界模型/視頻模型進行預訓練。
然而挑戰依然如影隨形:比如可控性,模型真的會聽從你對機器人的指令嗎?能否僅僅通過改變語言指令,就能輕松引導機器人從一個任務無縫切換到另一個任務?更致命的是,視覺語言大模型根本不懂底層的物理法則,如何將預測的視頻畫面落實到下游底層的物理運動控制中,仍然是一個未解決的問題。此外系統還面臨著可調試性和可擴展性的問題。盡管人們在推動“基礎模型與機器人操作結合”方面取得了很大進展,但仍有許多需要解答的問題。

我認為,在這個拼圖中缺失的最關鍵一環,就是環境模型(Models of the environment)。這個模型可以是基于物理的、基于學習的,回顧一下,正是因為這種模型的存在,火箭才能升空、無人機才能翱翔,甚至四足機器狗能在野外狂奔。雖然模型永遠不可能 100%完美,但正是它們,讓機器在真實的物理世界中擁有了立足之本。
對于機器人的靈巧操作而言,我們也必須在它的大腦里建立一個物理世界的“心理模型(Mental Model)”。我們需要能夠預測:當機械臂推出去時,面團會怎么變形?洋蔥塊會如何滾落?正是這種正向預測能力,賦能了機器人的行為規劃。
那么,如何構建這個模型?如果把技術路線比作一個光譜:光譜最左邊是純基于學習(Pure learning-based)的方法,例如DeepMind 的 Genie 3就是這個方向上的絕佳代表;光譜最右邊則是純依賴物理規則的方法,比如NVIDIA Warp/Flex。這兩端各有千秋,但我最核心的考量是:這兩端的中間地帶是否存在某種“黃金地帶”,能把兩者的優勢一網打盡?

過去幾年,我們的答案是:以圖(Graph)為核心的神經動力學模型。我們將物體拆解為無數個粒子,以此來描述剛性和可變形物體內部及相互之間的物理約束規則。我們在CoRL 大會上拿過最佳系統論文的一個案例,就是讓機器人捏面團。機器人可以使用3D打印的工具,在面團上隨便“把玩”十幾分鐘,我們的神經動力學模型能夠預測出:當你使用特定工具施加特定動作時,面團的形狀會如何發生形變。這種預測能力讓機器人能夠進行行為的逆向規劃,并最終成功把面團做成餃子。
同樣的邏輯,我們也完美應用到了不規則的顆粒物重排、多物體復雜碰撞等高難度任務中。例如我們可以規劃機器人的行為,將顆粒重新分布成不同的目標形狀,也就是從字母 A 到 Z 的形狀。這是一個高度復雜的任務,涉及到顆粒物極不規則的重新分布,以及與目標字母形狀的細粒度對齊。
去年年底,我們在《Science Robotics》上發表了一篇綜述論文,回顧了過去十多年里關于“用于機器人操作的基于學習的動力學模型”研究。這篇論文的整體結構正是建立在我當年博士論文的框架之上的。它真正反映了過去幾年我們在構建該領域模型時,對其中無數細微差別與權衡的深度思考。


02
沿著這個思路往下走,我們不禁會問:“接下來呢?”
我們絕不能永遠被困在實驗室的桌面上,而是要擴展到更廣泛的自然場景數據收集中去。行業內正投入量的人力物力去真實世界里采集物理交互數據。如果這些帶著極高“物理含金量”的數據,最后僅僅被拿去跑一個簡單的模仿學習,那簡直是暴殄天物!在這些帶有動作條件的真實數據中,蘊含著非常豐富的物理定律。我們完全可以把它們提煉成動力學模型,進而向構建“用于機器人策略訓練和評估的可擴展數據引擎”的目標邁進。

我們再回顧一下剛才提到的那個技術光譜,我們在偏向“基于物理建模”方向上做了一項核心工作:為可變形物體構建數字孿生。這里的數字孿生,是指一個包含物體外觀、幾何形狀和動力學特征的物理實體副本。
大家在左邊看到的是輸入我們系統的實拍視頻。中間,我們展示了重建出的、隨時間追蹤的物體幾何形狀,以及用于描述人類手部輸入的動作軌跡;在右側,背景是實拍視頻,前景是我們基于動作條件渲染出來的3D視頻預測它們完美重合。有了這個數字孿生體,你甚至可以用鼠標鍵盤像玩沙盒游戲一樣去揉捏那塊虛擬布料。這個框架同樣適用于布料、繩索等其他可變形物體。

這項工作一經發布,Google 機器人團隊的朋友就找上門來,希望用這套模型來做策略評估。為什么?因為對于 Google這樣的大廠,訓練一個基礎模型可能會產出成百上千個Checkpoints,但由于真機測試太慢,他們只能挑屈指可數的幾個扔到物理世界里去跑,測一輪就得等上一兩天。
這是當前機器人研發最致命的效率瓶頸。他們當時向我吐槽:“哪怕全靠燒錢堆真機,我們硬磕也能磨出結果來。”——但前提只是針對桌面環境的簡單Gemini 機器人任務。如果他們轉向運行周期更長、規模更大、更復雜的任務,這種砸錢堆真機的迭代速度就會斷崖式下跌。
為了解決這個痛點,我們徹底簡化了這種“數字孿生”的構建流程。現在,我們只需要拿著相機繞著物體走一圈,就能捕獲機器人、背景和物體的外觀及幾何形狀,并通過幾次簡短的實際交互來捕捉物體的動力學特性。
大家可以對比第一排的仿真環境和第二排的真實環境。一個僅僅用真實數據訓練出的策略,在數字世界里表現出的成功率與失敗姿態,與物理真實世界實現了極其驚人的線性相關性。

于是我們真正將這個數字引擎用于模型評估。在這里,我們評估了一系列當下最流行的策略算法,以及輕量級的 VLA模型,并跨越了多個不同的 Checkpoints。你可以看到,在許多不同的任務中,我們的數字仿真環境在成功率預測上,與真實環境實現了高度線性的相關。
但這里我必須嚴肅強調:任何做“模型評估”的研究,都必須對測試協議懷有敬畏之心。我們借鑒了豐田研究院(TRI)的嚴苛標準:我們必須極其嚴格地控制并理解訓練和評估時的數據分布,以此來確保在不同模型間進行的是完全公平的比較。
為了確保所有的初始狀態在不同策略間、尤其是在真實環境與數字仿真環境間絕對一致,每次我們在真機上擺放測試物體時,都會像左圖那樣使用半透明疊加輪廓。學生必須將實物嚴絲合縫地對齊在輪廓內,確保初始配置的一致性。
憑借這種嚴謹,我們可以在同一個策略架構內篩選出最佳的Checkpoint,如這個折線圖所示,仿真引擎測出的成功率(數字圖)與真機成功率完美對齊。有趣的是,有時候表現最好的Checkpoint 未必是你訓練到最后的那一個,反而往往出現在訓練的中期。
最近,我也聯合創立了一家初創公司,推進這一理念落地,看看這種數字環境究竟能無限逼近真實世界到什么地步。如視頻所示,左邊是真實環境,右邊是孿生數字環境。這是一個極其復雜的操作任務,最終機器人必須將這兩個齒輪插入一個公差非常小的孔位中。大家在這里看到的是一個完全“只用純仿真數據”訓練出來的策略模型,但它的真機行為表現,與數字環境中的推演依然保持了極高的相關性。
我們可以利用這個數字孿生引擎源源不斷地生成海量訓練數據。由這些數據訓練出的模型策略,能夠直接部署在真實環境中,不間斷且非常可靠地工作。這有力地證明了,由底層物理規則驅動的結構化世界模型,完全有能力捕捉現實中物理交互的細微偏差與復雜性,從而幫我們訓練出足以真機落地的魯棒策略。
這里是柔性線纜的插拔操作的演示。你不僅能看到兩者在渲染外觀上匹配得極其逼真,甚至在操作過程中,系統也完美重現了線纜由于受力不均所表現出的各種異質物理形變。我們在展覽廳的 72 號展位與 Analog Devices聯合進行現場實機演示。如果大家感興趣,非常歡迎過去圍觀。

03
剛才是偏向“物理先驗”的路徑,接著,我們把目光投向光譜的另一端,即“擁抱數據、相信大力出奇跡”的純基于學習的方向。由此,我們開發了一項名為“交互式世界模擬器”的工作。
這是一個物理交互語境下的、基于動作條件的視頻生成/預測模型,也是該領域首個真正讓我感覺突破的成果。它證明了純AI的視頻預測模型完全能勝任長周期的、包含高度非平庸的柔性物體交互任務。
各位現在屏幕上看到的這些操作畫面,完完全全是純 AI 生成的視頻,這里沒有任何一臺真實的機器人在參與。
它不僅能以 15 幀/秒的速率,生成了超過 10 分鐘的動作條件預測視頻,它不僅能推演剛體與柔性體的交織互動,甚至還能實時響應。我的學生在這邊操控著遙操作手柄,馬上就能在那個平行宇宙里的AI模擬器中瞬間渲染出對應的物理反饋。這套系統同樣適用于推T型、抓杯子以及多物體交互等復雜操作。

我想重點強調幾個關鍵技術細節:
第一,你可以看到視頻預測模型完全理解了夾爪與繩索之間的物理拓撲約束。它具備真實的 3D深度理解能力,知道這根繩子是在夾子的上方,還是已經被塞進了夾子內部;
第二,模型精準地捕捉了夾爪與馬克杯之間細微的接觸交互。當你張開夾爪、閉合夾爪,或者是去推杯子的邊緣、推杯子的把手時,模型都會相應地預測出杯子不同的旋轉軌跡;
第三,你甚至能在這個純AI生成的視頻里,把杯子從 3D空間中舉起來,放在高處的盤子上。系統確保了不同攝像機視角在三維空間中的絕對一致性。
我們已經將這項工作開源,最近它也剛被頂會 RSS 接收。如果你訪問我們的官方主頁,可以找到并親自上手體驗這些交互式 Demo。
那么,這個“極其逼真的幻覺世界”到底有什么用?正如我開篇所述,這依然服務于我們的核心愿景:一是策略訓練,二是策略評估。
我們在訓練時,沒有采集哪怕一條真實的物理世界數據,所有數據全都是在這個世界模擬器里生成的虛擬軌跡。然而令人吃驚的是,靠純虛構數據喂出來的策略模型,居然可以在復雜的“繩索布線”、“雜物清掃”中實現現實世界零樣本落地。即使畫面里有外人不斷伸手去干擾機器人,機器人的表現依然保持穩定。這種表現同樣適用于抓取馬克杯、掃除雜物以及井字棋任務。
這引出了一個關鍵問題:多少條虛擬數據,才能抵得上一條真實的數據?為了回答這個問題,我們做了一項消融實驗,從 100%虛擬到 100% 真實,不斷調節訓練集里虛實數據的配比。
我們橫向評測了當今最能打的幾套策略算法:Diffusion Policy、ACT以及Pi-0模型。甚至最新的大模型架構Pi-0.5。實驗結果顯示:所有模型的表現都保持了跨度極高的一致性。而且這種規律在不同任務間完美遷移。

從我們的實驗結果來看,在實驗覆蓋的任務和策略架構中,世界模擬器生成的虛擬軌跡在訓練價值上與真實軌跡表現出高度接近的效果。
我們也會拿這個世界模型來做策略評估。大家現在看到的是僅用真實數據訓練好的策略,我們將它同時部署在上面這排的虛擬世界模擬器中,和下面這排的真實物理空間中。兩條軌跡幾乎完美同步;如果在底層做定量的誤差評估,它們的數值對齊程度也非常高。
我順帶提個有趣的插曲:幾個拿著Y Combinator投資的年輕創業者,直接拿我們開源的模型去搞商業化融資。我去看了眼他們宣發的BP博客,心想:“好家伙,這圖看著可真眼熟啊!”
總之,這完美印證了我的核心觀點:結合了結構的“結構化世界模型”,完全可以作為一種無限可擴展的數據引擎,扛起大規模機器人模型訓練與驗證的重任。我們完全可以把這些數據的價值榨干:通過它們訓練出極度豐富的世界模型,再用世界模型反哺數據的生成。
最后,我想向我所有的合作者致以最深切的感謝。沒有他們,完成這些龐大的工程系統簡直是天方夜譚,尤其是我的學生們,他們承擔了我剛才所展示工作里幾乎所有最繁重的開發和推演。我還要感謝我實驗室的贊助方們,他們常常提供非常敏銳的行業需求視角,啟發了我們今天的很多研究方向。
這就是我演講的全部內容,我非常樂意回答大家的提問。謝謝大家!

04
聽眾A: 這種基于圖的神經模擬器,在底層算力上會不會有瓶頸?如果是極其動態的高速操作,還能擴展嗎?
李昀燭:這是一個很好的問題。圖結構本質上是對物理環境的一種抽象表示。它的優勢在于可以根據任務需求靈活調節表示粒度,例如調整參與計算的節點或粒子數量。
因此,這里存在一個計算效率與物理精度之間的權衡。如果任務對細節要求較高,我們可以使用更密集的粒子或節點;如果任務更關注整體趨勢或關鍵交互,也可以使用更稀疏的表示。關鍵是找到一個足夠簡潔、但仍能保留下游任務所需物理信息的表示。
聽眾B: 您能詳細講講 3D 高斯濺射與基于圖的表征在您系統里的關系嗎?另外,在評估時到底要給算法喂多少演示數據才算公平?由于不同算法需要的演示形態不一樣,您怎么定義泛化能力的基準呢?
李昀燭:這是一個非常重要的問題。首先需要澄清的是,在我們的架構中,3D 高斯主要負責環境和物體外觀的渲染;而涉及物體運動、形變和接觸交互的動力學建模,則主要由圖節點和粒子結構來完成。
以可變形物體為例,我們使用基于圖的神經動力學模型來預測物體形變,并通過圖結構中的物理約束來建模物體的拉伸、彎曲和接觸行為。換句話說,視覺渲染和動力學建模在系統中是相對解耦的:高斯表征主要負責外觀,圖結構主要負責物理。兩者之間再通過圖形學中的線性混合蒙皮等技術進行綁定。
關于評估協議,我們非常重視初始狀態和數據分布的一致性。對于每種策略、每個 checkpoint,我們都會在真實環境和數字孿生環境中進行嚴格對應的測試。例如,在真實環境和仿真環境中分別進行相同數量的試驗,并盡可能保證初始構型一致。這樣做的目的,是確保不同策略之間、以及真實環境和數字環境之間的比較是公平的。
在訓練數據方面,我們通常會遵循機器人學習領域較常見的設置,例如每個任務使用幾十到幾百條演示數據。但更重要的是,所有被比較的方法都應在清晰、統一的訓練和評估協議下進行測試。
聽眾C: 您的模型泛化能力如何?比如,如果現在換一個形狀完全不同的小孩玩具,或者換一條材質完全不同的繩子,您的模型還能直接泛化嗎?它是能直接泛化,還是說我要重頭為它訓練一個新模型?
李昀燭:這是當前這類方法面臨的核心問題之一。對于我們目前的數字孿生系統來說,它是通過 real-to-sim 的流程為特定物體和特定場景構建的,因此它并不能在完全沒有適配的情況下直接泛化到任意新物體。不過,我們的目標是盡可能簡化這個適配過程。現在,對于一個新的可變形物體,我們通常只需要較少量的觀測和交互數據,就可以構建出對應的數字孿生。這樣可以顯著降低為新物體建立模型的成本。
更長期來看,我們希望從大量已經識別和建模過的物體中,學習出更通用的神經動力學模型。理想情況下,這樣的模型能夠在看到新物體時,基于有限的觀測和交互,快速推斷其幾何、外觀和動力學屬性,并泛化到更廣泛的可變形物體和復雜交互場景。
聽眾D: 我非常震撼于您能把偏向 2D數據驅動的視頻生成和偏向 3D 物理先驗驅動的結構化重建完美結合。我知道您的學術背景很偏向 CV,都在狂堆 2D 端到端模型,甚至有人喊出“3D 路線已死”,站在您的視角,您對未來的技術版圖有什么樣的愿景?這兩條路線最終將以何種形態融合?
李昀燭:這是一個非常大的問題。我個人非常相信 3D 表征和物理結構在機器人中的長期價值。機器人最終要在真實三維空間中行動,與物體發生接觸和交互,因此系統需要具備某種形式的三維理解和物理推理能力。
即使在做視頻生成或視頻預測時,我們也希望模型不僅是在像素層面生成看起來合理的畫面,而是能夠在多視角之間保持一致,并在一定程度上理解場景背后的三維結構和物理約束。
當然,純數據驅動的方法也有非常大的潛力,尤其是在大規模數據和算力不斷增長的背景下。但至少在當前階段,它們在復雜物理交互、多視角一致性和可控性方面仍然存在明顯挑戰。另一方面,純物理引擎雖然具有清晰的物理結構,但通常需要非常完整和準確的狀態信息,而這在真實開放環境中往往難以獲得。
因此,我認為未來更有希望的方向,可能不是簡單地選擇 2D 或 3D、學習或物理中的某一端,而是在兩者之間找到合適的結合方式:用盡可能簡潔但有效的 3D 物理先驗來約束和組織大規模數據學習,讓模型既能利用海量數據的表達能力,又能保留對真實物理世界的結構化理解。這也是我們所說的“中間地帶”。
謝謝大家!
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網(公眾號:雷峰網)已全面上線【ICRA 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。
掃描下方二維碼,或點擊「閱讀原文」關注專區。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。