CVPR 2026終極盤點：這5篇論文、1個演講、3個展臺，藏著計算機視覺下一個十年的答案

本文作者：陳淑瑜

2026-06-11 11:49

專題：CVPR 計算機視覺與模式識別會議

導語：視覺-語言與多模態LLM論文占比一年飆漲5.7個百分點，CVPR正以前所未有的速度把具身智能推上主賽道。

CVPR 2026終極盤點：這5篇論文、1個演講、3個展臺，藏著計算機視覺下一個十年的答案

視覺-語言與多模態LLM論文占比一年飆漲5.7個百分點，CVPR正以前所未有的速度把具身智能推上主賽道。

作者丨陳淑瑜

編輯丨岑峰

16,092篇投稿，4,071篇錄用，25.3%錄取率，今年的CVPR創下了多項歷史紀錄。

但比數字更具風向標意義的是行業風向：5篇獲獎論文中至少3篇直指具身智能；展臺上NVIDIA和Tesla正合力把機器人從實驗室推向商業化；一場關于“可編程生物學”的重磅演講，則徹底打破了計算機視覺與傳統藥物設計的邊界。

如果你沒能親自前往丹佛，這篇全景盤點將帶你用最短的時間，一眼看透本屆大會的全部精髓。

5篇論文：從4D重建到一步式編輯，具身智能全面接管

今年CVPR的最佳論文獎項共有74篇入圍，15篇進入決賽圈，最終5篇獲獎。

縱觀這些獲獎作品，能發現一個顯而易見的行業共性：計算機視覺正從“被動感知”走向“主動理解與行動”。

▎最佳論文：D4RT——讓機器人“看見”第四個維度

動態場景的4D重建一直是計算機視覺中的“硬骨頭”。現有方法要么把任務拆成多個模塊分別處理，慢且復雜。要么無法處理動態區域的對應關系，要么兩者皆有。

D4RT的核心貢獻在于范式轉換。模型先用編碼器把整段視頻壓縮成一個全局場景表示，再用一個輕量解碼器按需回答“視頻中某個點在某個時刻的3D位置是什么”，深度圖、點云、點軌跡、相機參數全部通過同一套查詢接口輸出。

這一設計的精妙之處在于“統一解碼接口”，避免了逐幀密集解碼的巨大開銷，讓模型可以獨立且靈活地探測空間中任意點在任意時刻的3D位置。比前代方法快300倍，在動態4D重建與追蹤任務上達到新的SOTA，并支持對視頻全部像素進行稠密整體重建。

D4RT對具身智能的意義尤為深遠。機器人在動態環境中需要理解并預測人的動作，D4RT的“全像素跟蹤”能力提供了時空連續的人體運動感知基礎。它能解耦相機運動、物體運動和靜態幾何，使機器人區分“人在動”和“環境在動”，為穩定的人機協作感知奠定了基礎。

論文： Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

機構： Google DeepMind / UCL / 牛津大學

論文鏈接： https://arxiv.org/pdf/2512.08924

▎最佳論文提名：NitroGen——從打游戲到操控機器人的通用具身路線圖

NitroGen的核心定位是“視覺-動作基礎模型”。它在涵蓋1000+游戲、總計40,000小時的游戲試玩視頻上訓練而成，一個模型看游戲畫面即可輸出手柄操作，并在1000個不同游戲中實現零樣本泛化。相較于從頭開始訓練的模型，其任務成功率實現了高達52%的相對提升。

NitroGen背后的靈魂人物是Jim Fan，NVIDIA高級研究員、GEAR團隊負責人。他的研究脈絡本身就是一條從虛擬到物理的具身智能進化史：SURREAL的分布式深度強化學習、MineDojo從10萬+Minecraft YouTube視頻中學習、Voyager首個自主玩Minecraft的AI Agent、Eureka用GPT-4加速機器人訓練，直到NitroGen指向“通用具身Agent”，實現跨技能、跨具身、跨現實（物理和虛擬）泛化。

NitroGen的研究路線對機器人模仿學習有著直接的遷移價值。這種從大規模視頻中自動提取動作標簽、訓練視覺-動作策略的框架，可以直接搬到人機協作場景中，讓機器人快速學會人類的協作策略。

論文： NitroGen: An Open Foundation Model for Generalist Gaming Agents

機構： NVIDIA / 斯坦福大學 / 加州理工學院 / 芝加哥大學 / 德州大學奧斯汀分校

論文鏈接： https://arxiv.org/abs/2601.02427

▎ 最佳論文提名：SAM 3D——一眼看透3D世界

作為Segment Anything系列的3D延伸，SAM 3D包含Objects（重建物體）與Body（估計人體）兩個子模型。兩者均采用多階段DiT架構，即便面對普遍遮擋和凌亂環境，也能穩健重建。

研究團隊通過“人機協同”管線實現了這一突破，標注了規模空前的視覺基底3D重建數據，并在多階段訓練框架中將合成數據預訓練與真實世界對齊相結合，打破了3D領域長期存在的“數據壁壘”。在針對真實世界物體和場景的人類偏好測試中，SAM 3D獲得了至少5:1的勝率。

對具身智能而言，它讓機器人無需依賴高昂的深度傳感器，僅憑單張圖像即可實時、準確地獲取人類的3D姿態和空間場景理解。

論文： SAM 3D: 3Dfy Anything in Images

機構： Meta超級智能實驗室

論文鏈接： https://arxiv.org/abs/2511.16624

▎最佳學生論文：CLAY——3D生成進入大模型時代

3D生成建模領域近年來進展顯著，但現有表示方法仍難以捕捉具有復雜拓撲結構和精細外觀的3D資產。

CLAY的核心創新是O-Voxel，一種新型稀疏體素結構，能同時編碼幾何與外觀，穩健地建模任意拓撲，包括開放、非流形及全封閉表面，同時捕捉紋理顏色之外的豐富表面屬性，如基于物理的渲染參數。

基于O-Voxel，作者設計了稀疏壓縮變分自編碼器，實現了高空間壓縮率和緊湊的潛在空間，隨后訓練了包含40億（4B）參數的大規模流匹配模型用于3D生成。盡管規模龐大，推理過程依然高效，且生成資產的幾何與材質質量遠超現有模型。

對具身智能研究者而言，CLAY的價值在于：用3D生成模型可以快速構建仿真環境，大幅降低HRI（人機交互）仿真成本。當然，如何保證生成場景的物理合理性、如何讓生成的3D場景支持交互仿真，仍是待解的問題。

論文： Native and Compact Structured Latents for 3D Generation

機構： 清華大學 / 微軟研究院 / 中國科學技術大學 / 微軟AI

論文鏈接： https://arxiv.org/abs/2512.14692

▎ 最佳學生論文提名：ChordEdit——讓一步式圖像編輯真正可用

一步式文本生成圖像（T2I）模型帶來了前所未有的生成速度，但將其用于文本引導的圖像編輯卻困難重重：強行把現有免訓練編輯方法壓縮到單步推理中，往往導致物體嚴重變形和非編輯區域一致性丟失。

這個問題的根源在于，直接在模型的結構化場上做樸素的向量運算，會產生高能量、劇烈抖動的軌跡。

ChordEdit將圖像編輯重新表述為一個傳輸問題：在由源文本提示詞和目標文本提示詞所定義的源分布與目標分布之間進行傳輸。基于動態最優傳輸理論，研究者推導出一種有原則的低能量控制策略，得到更平滑、方差更低的編輯場，使得編輯場可以通過一次較大的積分步長完成遍歷，最終讓一步式擴散模型首次實現高保真、實時圖像編輯。

ChordEdit是一個模型無關、無需訓練、也無需反演的方法，這種優雅的理論框架讓它在5篇獲獎論文中獨樹一幟。雖然它與具身智能的直接關聯較弱，但“一步式推理”的理念，與端側部署和實時交互的工業需求高度契合。

論文： ChordEdit: One-Step Low-Energy Transport for Image Editing

機構： 廣東工業大學 / 惠州學院 / 深圳大學 / 北京大學

論文鏈接： https://arxiv.org/abs/2602.19083

1個演講：Simon Kohl與“可編程生物學”的震撼宣言

在CVPR 2026的大會特邀演講環節，前DeepMind蛋白質設計團隊核心成員、2024年諾貝爾化學獎獲獎項目AlphaFold核心研究員、Latent Labs創始人兼CEO Simon Kohl發表了題為"Programmable Biology: Generative AI for Molecular Design"的演講。這場演講或許是本屆CVPR最“跨界”的Keynote，也是最具沖擊力的。

Simon Kohl指出，傳統藥物研發由于“從錯誤的分子出發”導致九成候選藥最終失敗。過去五年計算藥物設計迎來指數級躍遷，技術已從基礎的蛋白質結構預測，演進到抗體設計智能體自主運行的全新階段。

其團隊創建的AI智能體Latent-Y目前已實現實驗室驗證。只需輸入一句自然語言指令，智能體便能自主接管靶點分析、提示詞生成、并行設計及迭代的全流程。在針對“不可成藥”靶標（如KRAS）和血腦屏障靶標的壓力測試中，AI僅用1天計算加4周驗證，便在結合力上與傳統耗時數月的萬億級篩選分庭抗禮。

正如他所言，“生物學終將成為一門可編程的工程學科。”從ImageNet到AlphaFold，從像素識別到分子設計，AI正在以前所未有的速度將一個又一個“不可能”變為“可編程”。

3個展臺：從NVIDIA到Tesla到Apple，具身智能“卷”出實驗室

論文賽道指明了前沿研究的去向，而展臺則揭示了技術正以多快的速度被推向商業市場。在CVPR 2026的展覽廳里，具身智能和物理AI成為了絕對的主旋律。

以下這三個展臺，最具代表性：

▎NVIDIA（Booth 211）：具身智能的“軍火商”

NVIDIA是本屆CVPR最大的展商之一，展臺上最吸引眼球的是先進的機器人抓取演示和自動駕駛研究展示。

此外還展示了Nemotron 3 Nano Omni模型，一個統一視覺、音頻和語言的端側多模態模型，讓開發者在邊緣設備上也能部署多模態AI。

NVIDIA在CVPR 2026的角色更像一個“軍火商”，為整個具身智能生態提供從訓練到推理的基礎設施。從GPU算力到仿真平臺，從大模型到端側部署，NVIDIA的展臺幾乎覆蓋了具身智能全鏈條。

Jim Fan團隊的NitroGen獲得最佳論文提名，進一步證明了NVIDIA在學術和工程兩端的統治力。

▎Tesla：純視覺的激進賭注

Tesla的展臺則聚焦于純視覺自動駕駛和機器人進展。在WDFM-EAI Workshop上，Tesla Autopilot及AI負責人Ashok Elluswamy的演講引發全場熱議，他系統披露了Tesla在具身智能方向的技術積累，包括FSD上下文長度從約10秒猛增至約30秒（提升3倍），以及FSD模型完整輸入/輸出架構的首次公開。

清晰傳遞出Tesla的戰略意圖：將自動駕駛作為更廣泛機器人與具身AI平臺的一部分，與Optimus人形機器人項目深度協同。Tesla在丹佛傳遞的核心信息是，純視覺路線已經超越了技術選擇的范疇，更像一種信仰。

▎Apple（Booth 231）：安靜的顛覆者

Apple以贊助商身份參加CVPR 2026，設有展位并帶來多篇論文與特邀演講。重點研究包括視頻生成模型STARFlow-V、視覺統一分詞器AToken、4D幾何外觀表征Velox等。

Apple的展臺風格一如既往地低調，但研究卻不容小覷。AToken試圖統一視覺理解與生成的底層表征，Velox則指向4D動態場景理解，這些方向與D4RT、SAM 3D的獲獎論文形成了有趣的呼應。

Apple的“慢而穩”策略，在NVIDIA和Tesla的“快而猛”之間，提供了一種截然不同的技術路線參照。

深層趨勢：

CVPR從“讓人看懂圖像”走向“讓機器人看懂世界”

綜合5篇獲獎論文、Simon Kohl的演講和三大展臺的信號，CVPR 2026傳遞的最深層趨勢可以概括為一句話：計算機視覺正在經歷從“被動感知”到“主動理解與行動”的范式轉移。

▎趨勢一：多模態與具身智能成為絕對主線。

視覺-語言與多模態LLM論文占比從去年的4.9%飆升至10.6%，增幅達5.7個百分點，這是CVPR近年來單一類別最大幅度的增長。

5篇獲獎論文中至少3篇與具身智能直接相關，展臺上超過100家公司中相當比例在展示物理AI方案。具身智能已經從“分會場議題”升級為主線劇情。

▎趨勢二：視覺架構正從“識別像素”走向“重建世界”。

D4RT重建4D動態場景，SAM 3D從單圖重建3D世界，CLAY用4B參數生成3D資產，這些工作的共性在于：視覺系統已經不再滿足于“識別”和“分類”，開始試圖從2D輸入中重建完整的3D/4D世界表征。

未來的視覺架構將更關注空間理解而非像素識別。

▎趨勢三：感知問題正被基礎模型統一解決，重心上移至認知層。

D4RT解決動態感知，SAM 3D解決空間感知，NitroGen解決行動策略。

研究者的重心正從“如何讓機器人看見”轉向“如何讓機器人理解它看到的東西”，從感知層上升到認知層。這也是為什么Simon Kohl的演講在CVPR的舞臺上如此引人注目：當視覺模型足夠強大，下一個前沿就是“理解”與“決策”。

▎趨勢四：中國力量從“參會”走向“設局”。

在CVPR 2026高校論文接收Top 10中，中國高校占據八席：上海交通大學以46篇高居榜首，浙江大學40篇緊隨其后。在產業端，騰訊拿下最高級別Ultimate Sponsor，MiniMax躋身白金贊助商，蘇度科技、Linkerbot等具身智能新銳集體亮相。更值得注意的是，在GigaBrain Challenge 2026中，中國團隊在四個賽道包攬全部冠軍，這在CVPR歷史上極為罕見。中國企業已從“底層代工”升級為“軟硬一體全棧AI產業鏈”。

回到標題的問題：計算機視覺下一個十年的答案是什么？CVPR這5篇論文、1個演講、3個展臺的回應匯聚成一句話：視覺的終點不是看見，而是理解、行動、改變物理世界。下一個十年，這一頁已經被翻開了。

去哪看 CVPR 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨，雷峰網(公眾號：雷峰網)已全面上線【CVPR 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

掃描下方二維碼，或點擊「閱讀原文」關注專區。

CVPR 2026終極盤點：這5篇論文、1個演講、3個展臺，藏著計算機視覺下一個十年的答案