0
| 本文作者: 陳淑瑜 | 2026-06-05 18:33 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“量子位”
原文鏈接:https://mp.weixin.qq.com/s/pp7aAP_R0avsBVS48r_hiA?scene=1
2026 AI賽道最火的概念——物理AI!
自動駕駛公司在講、車企在講、大模型玩家在講、投資人在講……
概念成為共識,真正的分水嶺才開始浮現:率先拿出完整技術棧、論文、代碼,以及已經在路上跑著、在量產實車上驗證的,到底是誰?

在今年的CVPR首次開設的“具身智能基座模型部署研討會”上,這個問題終于“混沌初開”。
這場會議上,擠滿了這個賽道的頭號玩家:特斯拉、英偉達、Waymo,以及唯一一家受邀的中國企業——小鵬。
美國EV頭部媒體Electrek主編Fred Lambert 在CVPR 2026開始前,就已經注意到小鵬劉先明和特斯拉Ashok Elluswamy將在全球頂會同臺分享技術成果。

頂會上參與前沿AI話題討論的多如牛毛,但能讓特斯拉、Waymo、英偉達這樣的學術圈產業界頂尖玩家全都坐下來認真聽的,不多。
小鵬是其中一個。
“具身智能基座模型部署研討會”,在CVPR是第一屆,但其實是“Embodied AI Workshop”系列的第七屆。
這類論壇一般是特邀演講,邀請學術界和工業界的頂尖專家,分享最新研究成果和前沿思考。今年的參與者包括Waymo、特斯拉、英偉達等等——全球物理AI的第一梯隊。

小鵬這邊是由現任小鵬通用智能中心負責人劉先明參與本次的分享。
這也是小鵬第三次受邀在CVPR發表演講。但與前兩次不同,這是小鵬首次完整展示了世界模型技術圖譜。

演講基于團隊近期陸續發表的X-World、X-Foresight、X-Cache等一系列學術論文,系統解析了小鵬世界模型技術。
首先明確闡述了一個核心工作:小鵬正在研發具備主動思考、可控生成和長時序推演能力的世界模型,世界模型與第二代VLA共同構成小鵬物理AI基模底座。
二者通過不同訓練信號協同進化。
人類動作包含豐富的高層語義,隱性地編碼了感知、推理、意圖、風險判斷、社交互動以及對物理世界的理解。
不過這類監督信號在時間上相對稀疏,它通常只能監督最終的行為結果,而難以覆蓋促成這一行為過程中每一次潛在的物理狀態轉移。
而世界模型則是從世界本身中學習的。它不只是預測下一步動作,還可以預測未來狀態、未來觀測,或者潛在空間中的未來表征。

相比之下,世界模型獲得的監督信號要密集得多:每一幀畫面、每一次運動、每一次交互都可以成為訓練信號,本質是借鑒了大語言模型中“下一個Token預測”的范式,通過在海量未標注視頻上進行下一幀或下一狀態的密集預測,逐步學會物理世界的動力學與因果結構。
真正工程落地層面,常見VLA和世界模型路線“針鋒相對“,但小鵬的思路是將稀疏的人類意圖與密集的物理預測相結合,使得模型不僅在學習“人類駕駛員會怎么做”,更在深度理解“物理世界接下來會發生什么”。
這種雙重目標的并行演進,確保了系統在復雜環境下的可控性與安全性,也為自動駕駛系統賦予了更深層次的物理感知與邏輯推理能力。
“走VLA路線還是世界模型路線?”劉先明的回答是:小鵬物理世界基座模型,既是第二代VLA,也是世界模型。

回到物理AI,要真正了解學習客觀世界的知識,既需要真實世界的物理規律、因果邏輯、長時序推演;也需要在虛擬世界中反復練習——驗證策略、應對長尾、閉環優化。
世界模型與VLA的協同進化,真實的內涵其實是廣義的數據驅動體系:從更大規模的優質數據中,萃取出模型的智能,包含對人的行為的理解和對世界知識的理解。
AI如果真的要在物理世界中行動,需要知道幾件事:一是“如何行動”,二是理解“行動之后世界會如何變化”,同時根據世界可能的變化,繼續調整自己的行動策略。這就是小鵬第二代VLA和世界模型分別負責的工作。
“如何行動”,是去年劉先明CVPR演講的主旨,他介紹了小鵬第二代VLA的基礎架構和訓練方法。
關于“行動之后世界如何變化”,正是今年的演講主題,也就是小鵬如何研發世界模型。也可以通過小鵬團隊近期幾篇重要論文來理解小鵬世界模型。
劉先明認為,一個優秀的世界模型必須具備三大能力:主動思考、可控生成和長時序推演,這是智能的體現,也是世界模型能在自動駕駛領域應用的前提條件。小鵬研發團隊近期密集發布的幾篇技術報告,正好對應這幾個關鍵能力。
X-World是基于視頻擴散生成技術構建的可控多視角生成式世界模型,能在給定動作條件下生成符合物理約束的未來視頻,同時在持續生成過程中保持良好的可控性與穩定性。已經投入到小鵬的閉環仿真測試、在線強化學習、數據生成等研發環節。

X-Foresight是一套基于預測式世界模型的視覺-動作因果預測網絡,X-Foresight在架構上與VLA融為一體,在統一的token空間內聯合預測未來的多視角畫面與自車動作,為VLA的控車決策提供了核心支撐。它的預測式決策邏輯,倒逼模型“理解世界”,掌握車輛、行人運動規律與場景因果鏈條。
X-Cache是一個面向少步自回歸世界模型的跨段塊級緩存,能在基本不犧牲畫質的前提下,減少約七成的重復計算,對世界模型的去噪主干實現最高約2.7倍的推理加速。

劉先明還透露,近期還將發表名為“X-mind”的論文,解析模型如何“主動思考”,并可視化地呈現駕駛決策背后的中間推理過程。可解釋性對于自動駕駛的軟件性能調試、用戶信任建立以及模型快速迭代都至關重要。
而在技術架構創新的背后,scaling law對物理AI依然適用,而且規模化的技術紅利才剛開始。
過去一年多,小鵬持續迭代模型、算力、數據三大核心維度,不斷刷新基座模型的性能上限。
目前,小鵬第二代VLA模型已實現十億級參數量,依托上億段視頻片段完成訓練,單版模型訓練Token總量突破4萬億,數據與模型規模穩居行業第一梯隊。
小鵬提供的數據顯示,截至今年3月的一年時間里,小鵬智算集群單GPU訓練效率提升1010%,單任務訓練效率暴漲4360%,GPU硬件利用率從40%拉升至90%,對齊國內頭部AI企業水準。

不止云端算力,小鵬對車端算力的挖掘同樣做到極致。
通過芯片、編譯器、模型軟硬件深度協同自研,小鵬徹底盤活車端算力資源,將車端模型推理速度整體提升12倍。
劉先明公開的三組對照數據,直觀印證了這套自研體系的碾壓性優勢:
通用芯片+開源模型方案,算力利用率僅22.8%,推理時延高達800毫秒;
小鵬圖靈自研芯片+開源模型方案,算力利用率提升至35.1%,時延壓縮至300毫秒;
全套自研組合——第二代VLA模型+圖靈芯片,性能實現質變:算力利用率飆升至82.5%,推理時延直接壓到80毫秒。

第二代VLA的量產表現,就是對自動駕駛Scaling Law的最佳證明。
第二代VLA正式推送首月,搭載該系統的車型輔助駕駛里程占比突破50%。高階智駕正從“可選配置”逐漸成為高頻剛需。

每一次軟件升級的背后,是小鵬模型的快速迭代的結果。小鵬集團此前透露,研發團隊從去年11月到今年3月,平均每天能夠迭代4版模型。而「速度」,本身就是AI時代的核心競爭力。
首先,在L2到L4的升維路徑上,小鵬第一個拿出了完整技術路線。
車載AI已經進入了“模型智商”競爭的階段,而不是單純的比拼模型參數量,或者車端硬件堆砌。
就比如,激光雷達受物理極限制約,頻率較低且存在額外延遲損耗,每秒數據量僅百萬級。
而攝像頭響應更快、頻率可大幅提升,每秒可產生數十億級的豐富視覺信息。

所以激光雷達處理門檻雖低,但遠距離精度差、易誤判;攝像頭則需要強大算力處理海量數據——但算力足夠時,純視覺的上限遠超激光雷達。
當然這個趨勢,是特斯拉推動的。
馬斯克堅持純視覺,核心并不是“傳感器類型之爭”,而是“哪種數據類型能更好支持超大規模數據驅動”——這才是自動駕駛第一性原理的本質。
小鵬的第二代VLA就是最好的落地例證:不是單純靠更多攝像頭或更高算力芯片提升能力體驗,而是統一的物理世界基座模型,加上足夠大的車端云端算力,以及世界模型、路測數據,落地在物理世界的本體終端上:

參數規模、數據類型、底層架構上,小鵬二代VLA全面超越了傳統自動駕駛模型,證明了AI在真實路采數據之外,更高效理解物理世界、解決corner case。
更深一層,小鵬的世界模型全棧技術體系,已經超越了自動駕駛的范疇。
它不僅是自動駕駛模型,更是統一的物理世界基座模型。
因為多模態大模型的底層邏輯是通用的——它面向的不是“如何開車”,而是“如何理解并預判一個動態變化的物理世界”。
某種程度上,小鵬的世界模型并不是在教AI開車,而是在教AI“看懂”物理世界——開車只是其中一種具體的“懂法”。
從智能汽車到人形機器人,這套方法論具備天然的跨域遷移能力。

行業還在將“物理AI”作為一個吸引資本的營銷概念時,小鵬率先建立了物理AI的數據飛輪閉環。
這不僅是技術領先,還是一次對物理AI話語體系的定義:
? 終結VLA和世界模型技術路線的二元對立之爭;
? 探索L2升維L4的有效技術實現路徑;
? 在自動駕駛上,探索“萃取世界知識”的路徑,再用到更多應用場景。
小鵬是CVPR的常客,連續三年站上全球AI頂會的演講臺。這在全球車企中幾乎是獨一份。
看似“錯位”的競爭方式,恰恰解釋了為什么它常被歸入科技公司而非傳統車企陣營。
數據也給出了答案:技術力就是吸引力。一份調研顯示,超過60%的車主在購車決策中,將“智能駕駛能力”和“技術領先性”排在前三位。
他們選擇的不是一輛代步工具,而是一個持續進化、每月OTA的AI系統。從高速NGP到城市NGP,從規則驅動VLA到數據驅動世界模型——每一次技術躍遷,都直接轉化為用戶的駕駛體驗和購買信心。
CVPR 2026的這次展示,是最新一次驗證:小鵬的技術品牌,不是營銷話術,是一篇篇論文、一次次推送、一公里又一公里智能駕駛里程跑出來的,也已經站在了物理AI世界模型的最前沿。

對智能汽車競爭的降維打擊同時,更是對機器人、飛行汽車的跨域遷移。
2023年,小鵬首次站上CVPR。當時講的是XNet——中國首個量產的BEV感知架構。
2025年,小鵬第二次登臺。世界基座模型負責人劉先明拋出720億參數基座模型理論,首次在行業內驗證規模法則在自動駕駛VLA模型上持續生效。
2026年,CVPR“具身智能的世界模型”分論壇。小鵬第三次亮相,拿出了VLA與世界模型的思考,以及X-World、X-Foresight、X-Cache的完整技術棧,以及第二代VLA的量產驗證數據。
四年時間,從工程實踐到理論突破,再到量產落地。量產驗證,又為世界模型的規模化落地提供了真實的反饋數據。

這種連續性,才是小鵬真正難以被追趕的護城河。
同樣的連續性積累到今日,成為了小鵬從“造車新勢力”到“物理AI公司”的驚人一躍:
不僅僅為一款車打造一個AI,而是在為一個物理世界打造一個通用的認知基座。
本專題其他文章