CVPR 2026，英偉達特斯拉Waymo一塊聽中國公司講物理AI

本文作者：陳淑瑜

2026-06-05 18:33

專題：CVPR 計算機視覺與模式識別會議

導語：概念成為共識，真正的分水嶺才開始浮現：率先拿出完整技術棧、論文、代碼，以及已經在路上跑著、在量產實車上驗證的，到底是誰？

來源：公眾號“量子位”

原文鏈接：https://mp.weixin.qq.com/s/pp7aAP_R0avsBVS48r_hiA?scene=1

2026 AI賽道最火的概念——物理AI！

自動駕駛公司在講、車企在講、大模型玩家在講、投資人在講……

概念成為共識，真正的分水嶺才開始浮現：率先拿出完整技術棧、論文、代碼，以及已經在路上跑著、在量產實車上驗證的，到底是誰？

在今年的CVPR首次開設的“具身智能基座模型部署研討會”上，這個問題終于“混沌初開”。

這場會議上，擠滿了這個賽道的頭號玩家：特斯拉、英偉達、Waymo，以及唯一一家受邀的中國企業——小鵬。

美國EV頭部媒體Electrek主編Fred Lambert 在CVPR 2026開始前，就已經注意到小鵬劉先明和特斯拉Ashok Elluswamy將在全球頂會同臺分享技術成果。

頂會上參與前沿AI話題討論的多如牛毛，但能讓特斯拉、Waymo、英偉達這樣的學術圈產業界頂尖玩家全都坐下來認真聽的，不多。

小鵬是其中一個。

和英偉達特斯拉Waymo同臺競技，小鵬都講了什么？

“具身智能基座模型部署研討會”，在CVPR是第一屆，但其實是“Embodied AI Workshop”系列的第七屆。

這類論壇一般是特邀演講，邀請學術界和工業界的頂尖專家，分享最新研究成果和前沿思考。今年的參與者包括Waymo、特斯拉、英偉達等等——全球物理AI的第一梯隊。

△ 從左往右，左3：劉先明，小鵬集團通用智能中心負責人；

左5：Ashok Elluswamy，特斯拉AI 軟件副總裁；

左6：Dragomir Anguelov，Waymo副總裁；

小鵬這邊是由現任小鵬通用智能中心負責人劉先明參與本次的分享。

這也是小鵬第三次受邀在CVPR發表演講。但與前兩次不同，這是小鵬首次完整展示了世界模型技術圖譜。

△ 小鵬物理世界基座模型技術圖譜

演講基于團隊近期陸續發表的X-World、X-Foresight、X-Cache等一系列學術論文，系統解析了小鵬世界模型技術。

首先明確闡述了一個核心工作：小鵬正在研發具備主動思考、可控生成和長時序推演能力的世界模型，世界模型與第二代VLA共同構成小鵬物理AI基模底座。

二者通過不同訓練信號協同進化。

人類動作包含豐富的高層語義，隱性地編碼了感知、推理、意圖、風險判斷、社交互動以及對物理世界的理解。

不過這類監督信號在時間上相對稀疏，它通常只能監督最終的行為結果，而難以覆蓋促成這一行為過程中每一次潛在的物理狀態轉移。

而世界模型則是從世界本身中學習的。它不只是預測下一步動作，還可以預測未來狀態、未來觀測，或者潛在空間中的未來表征。

相比之下，世界模型獲得的監督信號要密集得多：每一幀畫面、每一次運動、每一次交互都可以成為訓練信號，本質是借鑒了大語言模型中“下一個Token預測”的范式，通過在海量未標注視頻上進行下一幀或下一狀態的密集預測，逐步學會物理世界的動力學與因果結構。

真正工程落地層面，常見VLA和世界模型路線“針鋒相對“，但小鵬的思路是將稀疏的人類意圖與密集的物理預測相結合，使得模型不僅在學習“人類駕駛員會怎么做”，更在深度理解“物理世界接下來會發生什么”。

這種雙重目標的并行演進，確保了系統在復雜環境下的可控性與安全性，也為自動駕駛系統賦予了更深層次的物理感知與邏輯推理能力。

“走VLA路線還是世界模型路線？”劉先明的回答是：小鵬物理世界基座模型，既是第二代VLA，也是世界模型。

回到物理AI，要真正了解學習客觀世界的知識，既需要真實世界的物理規律、因果邏輯、長時序推演；也需要在虛擬世界中反復練習——驗證策略、應對長尾、閉環優化。

世界模型與VLA的協同進化，真實的內涵其實是廣義的數據驅動體系：從更大規模的優質數據中，萃取出模型的智能，包含對人的行為的理解和對世界知識的理解。

AI如果真的要在物理世界中行動，需要知道幾件事：一是“如何行動”，二是理解“行動之后世界會如何變化”，同時根據世界可能的變化，繼續調整自己的行動策略。這就是小鵬第二代VLA和世界模型分別負責的工作。

“如何行動”，是去年劉先明CVPR演講的主旨，他介紹了小鵬第二代VLA的基礎架構和訓練方法。

關于“行動之后世界如何變化”，正是今年的演講主題，也就是小鵬如何研發世界模型。也可以通過小鵬團隊近期幾篇重要論文來理解小鵬世界模型。

如何讓AI理解環境、時空和因果？

劉先明認為，一個優秀的世界模型必須具備三大能力：主動思考、可控生成和長時序推演，這是智能的體現，也是世界模型能在自動駕駛領域應用的前提條件。小鵬研發團隊近期密集發布的幾篇技術報告，正好對應這幾個關鍵能力。

X-World是基于視頻擴散生成技術構建的可控多視角生成式世界模型，能在給定動作條件下生成符合物理約束的未來視頻，同時在持續生成過程中保持良好的可控性與穩定性。已經投入到小鵬的閉環仿真測試、在線強化學習、數據生成等研發環節。

X-Foresight是一套基于預測式世界模型的視覺-動作因果預測網絡，X-Foresight在架構上與VLA融為一體，在統一的token空間內聯合預測未來的多視角畫面與自車動作，為VLA的控車決策提供了核心支撐。它的預測式決策邏輯，倒逼模型“理解世界”，掌握車輛、行人運動規律與場景因果鏈條。

X-Cache是一個面向少步自回歸世界模型的跨段塊級緩存，能在基本不犧牲畫質的前提下，減少約七成的重復計算，對世界模型的去噪主干實現最高約2.7倍的推理加速。

劉先明還透露，近期還將發表名為“X-mind”的論文，解析模型如何“主動思考”，并可視化地呈現駕駛決策背后的中間推理過程。可解釋性對于自動駕駛的軟件性能調試、用戶信任建立以及模型快速迭代都至關重要。

而在技術架構創新的背后，scaling law對物理AI依然適用，而且規模化的技術紅利才剛開始。

過去一年多，小鵬持續迭代模型、算力、數據三大核心維度，不斷刷新基座模型的性能上限。

目前，小鵬第二代VLA模型已實現十億級參數量，依托上億段視頻片段完成訓練，單版模型訓練Token總量突破4萬億，數據與模型規模穩居行業第一梯隊。

小鵬提供的數據顯示，截至今年3月的一年時間里，小鵬智算集群單GPU訓練效率提升1010%，單任務訓練效率暴漲4360%，GPU硬件利用率從40%拉升至90%，對齊國內頭部AI企業水準。

不止云端算力，小鵬對車端算力的挖掘同樣做到極致。

通過芯片、編譯器、模型軟硬件深度協同自研，小鵬徹底盤活車端算力資源，將車端模型推理速度整體提升12倍。

劉先明公開的三組對照數據，直觀印證了這套自研體系的碾壓性優勢：

通用芯片+開源模型方案，算力利用率僅22.8%，推理時延高達800毫秒；

小鵬圖靈自研芯片+開源模型方案，算力利用率提升至35.1%，時延壓縮至300毫秒；

全套自研組合——第二代VLA模型+圖靈芯片，性能實現質變：算力利用率飆升至82.5%，推理時延直接壓到80毫秒。

CVPR 2026，英偉達特斯拉Waymo一塊聽中國公司講物理AI

第二代VLA的量產表現，就是對自動駕駛Scaling Law的最佳證明。

第二代VLA正式推送首月，搭載該系統的車型輔助駕駛里程占比突破50%。高階智駕正從“可選配置”逐漸成為高頻剛需。

每一次軟件升級的背后，是小鵬模型的快速迭代的結果。小鵬集團此前透露，研發團隊從去年11月到今年3月，平均每天能夠迭代4版模型。而「速度」，本身就是AI時代的核心競爭力。

都在說物理AI，小鵬有啥不一樣？

首先，在L2到L4的升維路徑上，小鵬第一個拿出了完整技術路線。

車載AI已經進入了“模型智商”競爭的階段，而不是單純的比拼模型參數量，或者車端硬件堆砌。

就比如，激光雷達受物理極限制約，頻率較低且存在額外延遲損耗，每秒數據量僅百萬級。

而攝像頭響應更快、頻率可大幅提升，每秒可產生數十億級的豐富視覺信息。

所以激光雷達處理門檻雖低，但遠距離精度差、易誤判；攝像頭則需要強大算力處理海量數據——但算力足夠時，純視覺的上限遠超激光雷達。

當然這個趨勢，是特斯拉推動的。

馬斯克堅持純視覺，核心并不是“傳感器類型之爭”，而是“哪種數據類型能更好支持超大規模數據驅動”——這才是自動駕駛第一性原理的本質。

小鵬的第二代VLA就是最好的落地例證：不是單純靠更多攝像頭或更高算力芯片提升能力體驗，而是統一的物理世界基座模型，加上足夠大的車端云端算力，以及世界模型、路測數據，落地在物理世界的本體終端上：

參數規模、數據類型、底層架構上，小鵬二代VLA全面超越了傳統自動駕駛模型，證明了AI在真實路采數據之外，更高效理解物理世界、解決corner case。

更深一層，小鵬的世界模型全棧技術體系，已經超越了自動駕駛的范疇。

它不僅是自動駕駛模型，更是統一的物理世界基座模型。

因為多模態大模型的底層邏輯是通用的——它面向的不是“如何開車”，而是“如何理解并預判一個動態變化的物理世界”。

某種程度上，小鵬的世界模型并不是在教AI開車，而是在教AI“看懂”物理世界——開車只是其中一種具體的“懂法”。

從智能汽車到人形機器人，這套方法論具備天然的跨域遷移能力。

行業還在將“物理AI”作為一個吸引資本的營銷概念時，小鵬率先建立了物理AI的數據飛輪閉環。

這不僅是技術領先，還是一次對物理AI話語體系的定義：

? 終結VLA和世界模型技術路線的二元對立之爭；
? 探索L2升維L4的有效技術實現路徑；
? 在自動駕駛上，探索“萃取世界知識”的路徑，再用到更多應用場景。

小鵬是CVPR的常客，連續三年站上全球AI頂會的演講臺。這在全球車企中幾乎是獨一份。

看似“錯位”的競爭方式，恰恰解釋了為什么它常被歸入科技公司而非傳統車企陣營。

數據也給出了答案：技術力就是吸引力。一份調研顯示，超過60%的車主在購車決策中，將“智能駕駛能力”和“技術領先性”排在前三位。

他們選擇的不是一輛代步工具，而是一個持續進化、每月OTA的AI系統。從高速NGP到城市NGP，從規則驅動VLA到數據驅動世界模型——每一次技術躍遷，都直接轉化為用戶的駕駛體驗和購買信心。

CVPR 2026的這次展示，是最新一次驗證：小鵬的技術品牌，不是營銷話術，是一篇篇論文、一次次推送、一公里又一公里智能駕駛里程跑出來的，也已經站在了物理AI世界模型的最前沿。

CVPR 2026，英偉達特斯拉Waymo一塊聽中國公司講物理AI

對智能汽車競爭的降維打擊同時，更是對機器人、飛行汽車的跨域遷移。

2023年，小鵬首次站上CVPR。當時講的是XNet——中國首個量產的BEV感知架構。

2025年，小鵬第二次登臺。世界基座模型負責人劉先明拋出720億參數基座模型理論，首次在行業內驗證規模法則在自動駕駛VLA模型上持續生效。

2026年，CVPR“具身智能的世界模型”分論壇。小鵬第三次亮相，拿出了VLA與世界模型的思考，以及X-World、X-Foresight、X-Cache的完整技術棧，以及第二代VLA的量產驗證數據。

四年時間，從工程實踐到理論突破，再到量產落地。量產驗證，又為世界模型的規模化落地提供了真實的反饋數據。

這種連續性，才是小鵬真正難以被追趕的護城河。

同樣的連續性積累到今日，成為了小鵬從“造車新勢力”到“物理AI公司”的驚人一躍：

不僅僅為一款車打造一個AI，而是在為一個物理世界打造一個通用的認知基座。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章