CVPR 2026現場直擊：CV與機器人的物理結界被徹底打破

本文作者：陳淑瑜

2026-06-05 18:47

導語：計算機視覺已經走出了「畫框識別」的屏幕舒適區，全面向真實三維世界進軍。?

6月4日，當維也納多瑙河畔的 ICRA 2026 進入正會的最后一天，大洋彼岸的美國丹佛科羅拉多會議中心（Colorado Convention Center）已經人聲鼎沸。許多我們前幾天還在維也納見到的熟悉面孔，各大頂尖高校的學者和硬科技企業的高管，此刻都正拖著行李箱，馬不停蹄地出現在丹佛的街頭。

這種罕見的“全球雙城趕場”現象背后，是計算機視覺（CVPR）與機器人（ICRA）兩大頂會賽道正在發生的史詩級大融合。

今年的 CVPR 在丹佛當地時間 6月3日至4日率先開啟 Workshop 環節，正會及重磅頒獎典禮則在 6月5日正式拉開帷幕，雷峰網已提前抵達第一現場，為您帶來這份滾燙的展前觀察。

1.6萬篇投稿的“諸神之戰”：

從感知世界，到理解物理

最新官方數據顯示，本屆 CVPR 2026 的論文投稿量達到了驚人的 16,092 篇，較上一年激增 24%，而最終錄用量在 4,090 篇左右，錄用率依舊維持在殘酷的 25.42% 上下。

翻看今年的論文列表與 Workshop 議程，如果說前兩年的 CVPR 還在卷圖像生成和 2D 檢測，那么今年丹佛的核心敘事已經徹底轉向了“多模態基礎模型”與“具身智能”。

在擠滿人的分會場里，這種趨勢尤為明顯。

無論是探討如何將視覺-語言-動作（VLA）模型部署到自動駕駛和機器人上的 WDFM-EAI（具身智能基礎模型部署）Workshop，還是引入了真實機器人操控挑戰賽（ManipArena Competition）的具身智能專場，都在傳遞一個極其明確的信號：計算機視覺已經走出了“畫框識別”的屏幕舒適區，全面向具有物理法則的真實三維世界進軍。視覺系統不再僅僅滿足于“看（Sense）”，而是開始作為中樞大腦主導“行動（Act）”。

中國高校的論文產出量也折射出這股浪潮的烈度。 最新統計顯示，CVPR 2026 高校論文接收 Top 10 中，中國高校占據八席：上海交通大學以 46 篇高居榜首，浙江大學 40 篇緊隨其后，中國科學技術大學 38 篇位列第三，中山大學以 36 篇超越北大、清華沖入前四，堪稱本屆最大黑馬。

更為驚人的是西湖大學。僅 4 位學者合力產出 22 篇，以“閃電戰”模式躋身第十，人均效率冠絕全場。

CVPR的中國軍團：

大廠坐鎮，新銳出海，重塑生態話語權

在去年的頂會上，中國學者的論文數量就已占據半壁江山。而在今年的丹佛，這種中國力量同樣體現在產業端和生態鏈的每一個環節。

今年在丹佛布展的中國公司，覆蓋了互聯網、大模型、機器人、智能駕駛四大領域：

字節跳動、阿里巴巴、螞蟻集團、騰訊、美團、元戎啟行、百度、MiniMax、宇樹科技、光輪智能、自變量。

我們現場還看到了官方的贊助商名單，堪稱一份中國 AI 實力的“巡禮圖”：

終極贊助商與白金陣營：騰訊強勢拿下最高級別的 Ultimate Sponsor；在白金贊助商中，阿里云、螞蟻集團、字節跳動悉數在列，體現了中國科技巨頭在算力與大模型上的統治力。更引人注目的是，國內大模型獨角獸 MiniMax 也躋身白金行列，展示了中國多模態大模型企業強勁的出海與科研反哺實力。
黃金與白銀陣營：如果說大廠代表了底氣，那么具身智能等垂直賽道的初創公司則代表了銳氣。在這個區間，我們看到了令人驚喜的本土生態網：

Sudo（蘇度科技）：由知名學者蘇昊教授創辦的具身智能明星公司，高調亮相丹佛，帶來其在強化學習與物理仿真領域的最新降維打擊。

此前雷峰網編輯在ICRA 2026展會現場報道，蘇度科技機器人已能夠準確抓取不同材質和形態的物體，泛化性極高。

Linkerbot：總部位于北京的中國明星機器人創企，專注于高自由度靈巧手及具身智能硬件研發。
Nexdata（數據堂國際品牌）：在數據為王的今天，他們直接端出了行業最緊缺的 VLM 數據集及靈巧手物理遙操作數據，精準卡位“數據基建”。
HPC AI COM（潞晨科技）：尤洋教授團隊帶來的 Colossal-AI 系統，正在為全球開源大模型與視頻生成（如 Open-Sora）提供底層彈藥。
百度（Baidu）與美團（Meituan）也出現在黃金贊助商陣營，進一步壯大了中國軍團的陣容。

從提供算力和基礎架構（阿里云、潞晨），到多模態基座大模型（MiniMax、字節），再到數據集（Nexdata）和具身智能本體硬件（蘇度、Linkerbot），中國企業在 CVPR 2026 的舞臺上，已經完全撕掉了過去“底層代工”的標簽，構建起了一條堅不可摧的“軟硬一體全棧 AI 產業鏈”。

Workshop 密集開火：

中國企業從“參會”走向“設局”

如果說贊助商名單是實力的名片，那么 Workshop 才是真正爭奪話語權的主戰場。

在 CVPR 2026 為期三天的 Workshop 環節中，超過 80 場專題研討會密集開火，其中中國企業與機構不再只是“到場聽講”，而是越來越多地以組織者身份親自“設局”，把議題方向和評審標準攥在自己手里。

WDFM-EAI：特斯拉與小鵬“純視覺雙雄”同臺

6月3日，本屆 CVPR 產業濃度最高的對話在 WDFM-EAI（具身智能基礎模型部署）Workshop 悄然上演。

特斯拉 Autopilot 及 AI 負責人 Ashok Elluswamy 與小鵬汽車通用智能中心負責人劉先明，以及 Waymo 研究副總裁 Dragomir Anguelov、英偉達感知與機器人研究副總裁 Jan Kautz，罕見同臺。

劉先明是現場唯一受邀的中國車企代表。這也是小鵬第三次登上 CVPR 演講臺。

Ashok 的演講題目為《Building Foundational Models for Robotics at Tesla》，系統披露了 Tesla 在具身智能方向的技術積累：FSD 上下文長度從約 10 秒猛增至約 30 秒（提升 3 倍）；FSD 模型完整輸入/輸出架構首次公開亮相。

現場還播放了一段 Tesla Robotaxi 瞬間避讓摔落騎行者的真實視頻，引發全場熱議，清晰傳遞出 Tesla 的戰略意圖：將自動駕駛作為更廣泛機器人與具身 AI 平臺的一部分，與 Optimus 人形機器人項目深度協同。

劉先明則給出了小鵬對“模塊化堆疊 vs 端到端世界模型”之爭的明確答案：“VLA 與世界模型并非相互競爭的技術路線，而是物理世界基座模型的兩大支柱。”

VLA 學的是“人類駕駛員會怎么做”，世界模型學的是“物理世界接下來會發生什么”，二者融合才是正解。

他進一步透露，小鵬第二代 VLA 已量產落地，推送首月用戶輔助駕駛里程占比首次突破 50%，并判斷“只有能做基座模型的公司，才有可能真的做到 L4”。

OpenDriveLab：從自動駕駛到具身智能，上海 AI Lab 系連辦四屆

如果說 WDFM-EAI 是產業對話場，那么 OpenDriveLab（上海 AI Lab/商湯系）主辦的 EmbodiedAIinLife Workshop 則是學術話語權的硬核爭奪。

這已經是該團隊連續第四年在 CVPR 主辦 Workshop：從 2023 年的“端到端自動駕駛”，到 2024 年的“具身智能與自動駕駛”，到 2025 年的“基礎模型與自主系統”，再到今年的“從實驗室到生活：野外具身智能”，研究視野從特定任務逐步拓展到通用具身智能。

今年的嘉賓陣容堪稱全明星：

蘇昊教授（蘇度科技創始人、CVPR 2025 程序主席）演講《物理理解的幻覺》；
哈佛助理教授 Yilun Du 談世界模型與具身智能；
UC Berkeley 的 Jiahui Lei 講從 4D 視覺到機器人；
UPenn 助理教授Jiatao Gu發問“具身智能需要關心 3D 嗎？”

更值得注意的是，Workshop 尾聲特別設置了嘉賓與組織者辯論環節，火藥味可見一斑。

GigaBrain Challenge：真機賽道成中國團隊主場，小米斬獲雙料冠軍

如果說 Workshop 演講描繪了具身智能的理論藍圖，那么賽場上的真機對決則用硬指標給出了最直白的回答：概念能不能落地，數據說了算。

由極佳視界（GigaAI）牽頭，聯合港大、北大、上海交大、地平線機器人、智元機器人（AGIBOT）等共同組織的 GigaBrain Challenge 2026，是本屆 CVPR 競賽維度最豐富的 Workshop 之一。

它同時開設了四個賽道：仿真 VLA 評測（RoboTwin）、世界模型評估器（GigaWorld）、真機機器人操控（RoboChallenge）和物理爪持演示（PhysClaw），從仿真到真機、從評估到部署，構成了一條完整的具身智能能力驗證鏈路。

這個 Workshop 也成了中國團隊的主場：小米拿下 RoboChallenge 真機賽道冠軍（40.89% 成功率，唯一破 40%成功率），電子科技大學拿下 RoboTwin 仿真賽道冠軍，清華大學拿下世界模型賽道冠軍，清華深研院拿下 PhysClaw 演示賽道冠軍。中國團隊在四個賽道中包攬全部冠軍，這在 CVPR 歷史上極為罕見。

值得一提的是，小米機器人團隊同時斬獲本屆 CVPR 2026 與 ICRA 2026 兩項冠軍，成為丹佛與維也納雙城最耀眼的“中國賽果”。

RoboChallenge Track共設置 30 個超難度真實任務，涵蓋雙臂靈巧操作、柔性物體操控、工具因果推理與跨平臺魯棒性，需進行 10 次連續無干擾測試，且要求提交統一多任務模型。

在這對泛化性要求極高的賽事中，小米參賽模型“my16”殺出重圍，它采用“S1/S2 雙系統 + 長短期記憶 + 跨本體預訓練”的整體架構，融合了大模型的認知深度、控制器的執行精度與記憶系統的長程穩定性。

最終，my16以 40.89% 的整體成功率顯著領先，是本屆賽事唯一突破 40% 成功率門檻的模型，綜合排名位列總榜第一。

現場直擊：F 展廳首秀與巴黎響應

為了讓參會者更直觀地感受技術如何轉化為現實應用，CVPR 2026 歷史上首次在 F 展廳推出“AI Demonstrations”環節。

近 30 場來自各大科技公司和研究團隊的現場演示，將實驗室里的前沿論文變成可交互、可運行的真實系統。不少參會者戲稱：“這才是 CVPR 的正確打開方式——不看 poster，看真機。”

而在丹佛主會場之外，一股“平行浪潮”同樣值得關注。大量無法赴美的歐洲學者，在巴黎自發組織了 CVPR@Paris 2026 平行活動，其講者名單含金量極高，包括多位 CV 領域頂尖學者，近年來在多模態與視覺大模型領域頻出爆款的香港大學李弘揚教授（Hongyang Li）在ICRA、CVPR兩大頂會趕場的同時，也受邀成為 CVPR@Paris 2026 的嘉賓，即將登臺分享。