0
| 本文作者: 陳淑瑜 | 2026-06-05 18:47 | 專題:CVPR 計算機視覺與模式識別會議 |
6月4日,當維也納多瑙河畔的 ICRA 2026 進入正會的最后一天,大洋彼岸的美國丹佛科羅拉多會議中心(Colorado Convention Center)已經人聲鼎沸。許多我們前幾天還在維也納見到的熟悉面孔,各大頂尖高校的學者和硬科技企業的高管,此刻都正拖著行李箱,馬不停蹄地出現在丹佛的街頭。
這種罕見的“全球雙城趕場”現象背后,是計算機視覺(CVPR)與機器人(ICRA)兩大頂會賽道正在發生的史詩級大融合。
今年的 CVPR 在丹佛當地時間 6月3日至4日率先開啟 Workshop 環節,正會及重磅頒獎典禮則在 6月5日正式拉開帷幕,雷峰網已提前抵達第一現場,為您帶來這份滾燙的展前觀察。
最新官方數據顯示,本屆 CVPR 2026 的論文投稿量達到了驚人的 16,092 篇,較上一年激增 24%,而最終錄用量在 4,090 篇左右,錄用率依舊維持在殘酷的 25.42% 上下。

翻看今年的論文列表與 Workshop 議程,如果說前兩年的 CVPR 還在卷圖像生成和 2D 檢測,那么今年丹佛的核心敘事已經徹底轉向了“多模態基礎模型”與“具身智能”。
在擠滿人的分會場里,這種趨勢尤為明顯。
無論是探討如何將視覺-語言-動作(VLA)模型部署到自動駕駛和機器人上的 WDFM-EAI(具身智能基礎模型部署)Workshop,還是引入了真實機器人操控挑戰賽(ManipArena Competition)的具身智能專場,都在傳遞一個極其明確的信號:計算機視覺已經走出了“畫框識別”的屏幕舒適區,全面向具有物理法則的真實三維世界進軍。視覺系統不再僅僅滿足于“看(Sense)”,而是開始作為中樞大腦主導“行動(Act)”。
中國高校的論文產出量也折射出這股浪潮的烈度。 最新統計顯示,CVPR 2026 高校論文接收 Top 10 中,中國高校占據八席:上海交通大學以 46 篇高居榜首,浙江大學 40 篇緊隨其后,中國科學技術大學 38 篇位列第三,中山大學以 36 篇超越北大、清華沖入前四,堪稱本屆最大黑馬。
更為驚人的是西湖大學。僅 4 位學者合力產出 22 篇,以“閃電戰”模式躋身第十,人均效率冠絕全場。
在去年的頂會上,中國學者的論文數量就已占據半壁江山。而在今年的丹佛,這種中國力量同樣體現在產業端和生態鏈的每一個環節。
今年在丹佛布展的中國公司,覆蓋了互聯網、大模型、機器人、智能駕駛四大領域:
字節跳動、阿里巴巴、螞蟻集團、騰訊、美團、元戎啟行、百度、MiniMax、宇樹科技、光輪智能、自變量。

我們現場還看到了官方的贊助商名單,堪稱一份中國 AI 實力的“巡禮圖”:

終極贊助商與白金陣營:騰訊強勢拿下最高級別的 Ultimate Sponsor;在白金贊助商中,阿里云、螞蟻集團、字節跳動悉數在列,體現了中國科技巨頭在算力與大模型上的統治力。更引人注目的是,國內大模型獨角獸 MiniMax 也躋身白金行列,展示了中國多模態大模型企業強勁的出海與科研反哺實力。
黃金與白銀陣營:如果說大廠代表了底氣,那么具身智能等垂直賽道的初創公司則代表了銳氣。在這個區間,我們看到了令人驚喜的本土生態網:
Sudo(蘇度科技):由知名學者蘇昊教授創辦的具身智能明星公司,高調亮相丹佛,帶來其在強化學習與物理仿真領域的最新降維打擊。
此前雷峰網編輯在ICRA 2026展會現場報道,蘇度科技機器人已能夠準確抓取不同材質和形態的物體,泛化性極高。
Linkerbot:總部位于北京的中國明星機器人創企,專注于高自由度靈巧手及具身智能硬件研發。
Nexdata(數據堂國際品牌):在數據為王的今天,他們直接端出了行業最緊缺的 VLM 數據集及靈巧手物理遙操作數據,精準卡位“數據基建”。
HPC AI COM(潞晨科技):尤洋教授團隊帶來的 Colossal-AI 系統,正在為全球開源大模型與視頻生成(如 Open-Sora)提供底層彈藥。
百度(Baidu)與美團(Meituan)也出現在黃金贊助商陣營,進一步壯大了中國軍團的陣容。
從提供算力和基礎架構(阿里云、潞晨),到多模態基座大模型(MiniMax、字節),再到數據集(Nexdata)和具身智能本體硬件(蘇度、Linkerbot),中國企業在 CVPR 2026 的舞臺上,已經完全撕掉了過去“底層代工”的標簽,構建起了一條堅不可摧的“軟硬一體全棧 AI 產業鏈”。
如果說贊助商名單是實力的名片,那么 Workshop 才是真正爭奪話語權的主戰場。
在 CVPR 2026 為期三天的 Workshop 環節中,超過 80 場專題研討會密集開火,其中中國企業與機構不再只是“到場聽講”,而是越來越多地以組織者身份親自“設局”,把議題方向和評審標準攥在自己手里。
WDFM-EAI:特斯拉與小鵬“純視覺雙雄”同臺
6月3日,本屆 CVPR 產業濃度最高的對話在 WDFM-EAI(具身智能基礎模型部署)Workshop 悄然上演。
特斯拉 Autopilot 及 AI 負責人 Ashok Elluswamy 與小鵬汽車通用智能中心負責人劉先明,以及 Waymo 研究副總裁 Dragomir Anguelov、英偉達感知與機器人研究副總裁 Jan Kautz,罕見同臺。
劉先明是現場唯一受邀的中國車企代表。這也是小鵬第三次登上 CVPR 演講臺。

Ashok 的演講題目為《Building Foundational Models for Robotics at Tesla》,系統披露了 Tesla 在具身智能方向的技術積累:FSD 上下文長度從約 10 秒猛增至約 30 秒(提升 3 倍);FSD 模型完整輸入/輸出架構首次公開亮相。
現場還播放了一段 Tesla Robotaxi 瞬間避讓摔落騎行者的真實視頻,引發全場熱議,清晰傳遞出 Tesla 的戰略意圖:將自動駕駛作為更廣泛機器人與具身 AI 平臺的一部分,與 Optimus 人形機器人項目深度協同。

劉先明則給出了小鵬對“模塊化堆疊 vs 端到端世界模型”之爭的明確答案:“VLA 與世界模型并非相互競爭的技術路線,而是物理世界基座模型的兩大支柱。”
VLA 學的是“人類駕駛員會怎么做”,世界模型學的是“物理世界接下來會發生什么”,二者融合才是正解。
他進一步透露,小鵬第二代 VLA 已量產落地,推送首月用戶輔助駕駛里程占比首次突破 50%,并判斷“只有能做基座模型的公司,才有可能真的做到 L4”。

OpenDriveLab:從自動駕駛到具身智能,上海 AI Lab 系連辦四屆
如果說 WDFM-EAI 是產業對話場,那么 OpenDriveLab(上海 AI Lab/商湯系)主辦的 EmbodiedAIinLife Workshop 則是學術話語權的硬核爭奪。
這已經是該團隊連續第四年在 CVPR 主辦 Workshop:從 2023 年的“端到端自動駕駛”,到 2024 年的“具身智能與自動駕駛”,到 2025 年的“基礎模型與自主系統”,再到今年的“從實驗室到生活:野外具身智能”,研究視野從特定任務逐步拓展到通用具身智能。
今年的嘉賓陣容堪稱全明星:
蘇昊教授(蘇度科技創始人、CVPR 2025 程序主席)演講《物理理解的幻覺》;
哈佛助理教授 Yilun Du 談世界模型與具身智能;
UC Berkeley 的 Jiahui Lei 講從 4D 視覺到機器人;
UPenn 助理教授Jiatao Gu發問“具身智能需要關心 3D 嗎?”
更值得注意的是,Workshop 尾聲特別設置了嘉賓與組織者辯論環節,火藥味可見一斑。

GigaBrain Challenge:真機賽道成中國團隊主場,小米斬獲雙料冠軍
如果說 Workshop 演講描繪了具身智能的理論藍圖,那么賽場上的真機對決則用硬指標給出了最直白的回答:概念能不能落地,數據說了算。
由極佳視界(GigaAI)牽頭,聯合港大、北大、上海交大、地平線機器人、智元機器人(AGIBOT)等共同組織的 GigaBrain Challenge 2026,是本屆 CVPR 競賽維度最豐富的 Workshop 之一。
它同時開設了四個賽道:仿真 VLA 評測(RoboTwin)、世界模型評估器(GigaWorld)、真機機器人操控(RoboChallenge)和物理爪持演示(PhysClaw),從仿真到真機、從評估到部署,構成了一條完整的具身智能能力驗證鏈路。
這個 Workshop 也成了中國團隊的主場:小米拿下 RoboChallenge 真機賽道冠軍(40.89% 成功率,唯一破 40%成功率),電子科技大學拿下 RoboTwin 仿真賽道冠軍,清華大學拿下世界模型賽道冠軍,清華深研院拿下 PhysClaw 演示賽道冠軍。中國團隊在四個賽道中包攬全部冠軍,這在 CVPR 歷史上極為罕見。

值得一提的是,小米機器人團隊同時斬獲本屆 CVPR 2026 與 ICRA 2026 兩項冠軍,成為丹佛與維也納雙城最耀眼的“中國賽果”。

RoboChallenge Track共設置 30 個超難度真實任務,涵蓋雙臂靈巧操作、柔性物體操控、工具因果推理與跨平臺魯棒性,需進行 10 次連續無干擾測試,且要求提交統一多任務模型。
在這對泛化性要求極高的賽事中,小米參賽模型“my16”殺出重圍,它采用“S1/S2 雙系統 + 長短期記憶 + 跨本體預訓練”的整體架構,融合了大模型的認知深度、控制器的執行精度與記憶系統的長程穩定性。
最終,my16以 40.89% 的整體成功率顯著領先,是本屆賽事唯一突破 40% 成功率門檻的模型,綜合排名位列總榜第一。

為了讓參會者更直觀地感受技術如何轉化為現實應用,CVPR 2026 歷史上首次在 F 展廳推出“AI Demonstrations”環節。
近 30 場來自各大科技公司和研究團隊的現場演示,將實驗室里的前沿論文變成可交互、可運行的真實系統。不少參會者戲稱:“這才是 CVPR 的正確打開方式——不看 poster,看真機。”
而在丹佛主會場之外,一股“平行浪潮”同樣值得關注。大量無法赴美的歐洲學者,在巴黎自發組織了 CVPR@Paris 2026 平行活動,其講者名單含金量極高,包括多位 CV 領域頂尖學者,近年來在多模態與視覺大模型領域頻出爆款的香港大學李弘揚教授(Hongyang Li)在ICRA、CVPR兩大頂會趕場的同時,也受邀成為 CVPR@Paris 2026 的嘉賓,即將登臺分享。

這一方面折射出 CVPR 的全球影響力已溢出丹佛會場,另一方面也暗示著:計算機視覺這場“諸神之戰”,早已不再局限于某一個地理坐標。
CVPR正會將在當地時間6月5日開始,屆時開幕式上也將會頒布一系列獎項,雷峰網將會持續關注。
從 ICRA 的維也納,到 CVPR 的丹佛,技術的浪潮正在前所未有地加速。
純視覺如何抹平 Sim-to-Real 的虛實差異?視覺大模型如何學會理解 3D 空間結構與反常識的物理碰撞?VLA 與世界模型的融合終局在哪里?
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網已全面上線【CVPR 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方的第一手會議動態。
掃描下方二維碼,或點擊「閱讀原文」關注專區。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章