CVPR 26 最佳論文 | 谷歌 DeepMind 放大招：一個 Transformer 直接“看懂”動態世界，4D 重建速度飆到 200+ FPS

本文作者：陳淑瑜

2026-06-09 15:40

導語：它把 4D 場景理解，從“暴力全量輸出”，改成了 “統一接口、按需查詢”。

來源：“AI前沿速遞”公眾號

原文鏈接：https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w

當我們看一段視頻時，看到的不只是“這一幀長什么樣”，而是一個不斷變化的 3D 世界：相機在動，物體在動，遮擋在發生，幾何關系也在不斷變化。

CVPR 26 最佳論文 | 谷歌 DeepMind 放大招：一個 Transformer 直接“看懂”動態世界，4D 重建速度飆到 200+ FPS

但過去的大多數 3D/4D 重建方法，依然在用一種偏“靜態”的方式理解世界：深度一個頭、位姿一個頭、點云一個頭、動態跟蹤再來一個系統，最后還要靠復雜的測試時優化把這些模塊拼起來。

結果往往是：模型越來越重，推理越來越慢，一旦遇到動態場景，效果就開始掉鏈子。

最近，Google DeepMind 等機構發布的論文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一個非常直接、但也非常有效的新框架：D4RT。

它的核心思想只有一句話：

不是把整段視頻所有結果一次性“密集解碼”出來，而是把視頻先編碼成一個全局場景表示，再按需查詢任意時空點的 3D 位置。

換句話說，它把 4D 場景理解，從“暴力全量輸出”，改成了 “統一接口、按需查詢”。

這一步看起來簡單，實際上把 動態 4D 重建、點跟蹤、深度估計、相機位姿估計，甚至全像素跟蹤，都收攏到了同一個框架里。

如果把傳統方法比作“每次都要把整座城市完整建模一遍”，那么 D4RT 更像是先搭好一個可檢索的世界模型。

之后你問它：

“第 3 幀這個像素，在第 10 幀、以第 7 幀相機坐標系表示時，它的 3D 位置在哪？”

它就能直接回答。

這也是論文名字里 “One D4RT at a Time” 的巧妙之處：它不是一次性把所有東西全算出來，而是一個查詢、一個查詢地把動態世界重建出來。

接下來看看它到底是怎么做的。

一、一個統一接口，打通 4D 重建、深度、跟蹤和相機位姿

D4RT 的主體是一個非常清晰的 編碼器-解碼器結構。

先給定輸入視頻：

編碼器提取全局場景表示：

這里的可以理解為整段視頻壓縮后的 “全局時空記憶”。

然后，模型定義一個查詢：

其中：

? 是源幀中的 2D 像素位置；
? 是這個點來自哪一幀；
? 是你想查詢它在哪個時間點的狀態；
? 是你希望結果落在哪個相機坐標系下。

最后，解碼器直接輸出這個點的 3D 位置：

這套設計最妙的地方在于，它把 “空間位置”“時間狀態”“參考坐標系” 徹底解耦了。

你不再需要為深度、點云、跟蹤、位姿分別寫一套任務頭，只需要換一下查詢方式，同一個模型就能完成不同任務。

更進一步，論文還給出了相機位姿和內參的求法。

對于相機外參，作者構造兩組查詢：

這樣就能得到同一批 3D 點在兩個參考坐標系下的表示，再通過剛體變換估計相對位姿。

對于相機內參，在針孔模型假設下，焦距可以由預測點坐標直接反推：

這意味著 D4RT 并不是“只能做點跟蹤”，而是真正把動態場景里的 幾何、運動和相機 都納入了一個統一解碼框架。

一句話總結：

別的方法是“一個任務一套頭”，D4RT 是“一個接口全包”。

二、為什么它會快這么多

這篇論文最讓人眼前一亮的，不只是統一，還在于效率。

很多 4D 方法在推理階段慢得離譜，本質原因是它們要么依賴多模型拼接，要么需要密集逐幀解碼，要么查詢成本太高。

D4RT 反其道而行之：

? 查詢是稀疏的；
? 解碼器是輕量的；
? 每個查詢彼此獨立。

論文中還提出了一個基于占據網格的全像素跟蹤加速策略：

它只從還沒訪問過的像素發起新軌跡，從而把密集跟蹤的代價大幅壓縮。作者報告，這個策略能帶來 5-15 倍的自適應加速。

更夸張的是，在相機位姿估計上，D4RT 直接把速度和精度同時拉高。

這其實特別關鍵。

因為視頻 4D 理解最怕的不是“論文指標不夠高”，而是 “指標高但根本跑不動”。

D4RT 的意義在于，它第一次把動態 4D 重建推到了一個真正 可擴展、可部署 的效率區間。

三、動態場景里，它終于不再“看花眼”

動態場景一直是 3D 重建最難的部分。

靜態世界里，物體不動，圖像間匹配還能靠多視圖幾何硬撐；但只要天鵝游起來、火車開起來、人物走起來，很多傳統方法就會出現明顯問題：

? 動態物體被重復重建；
? 動態目標直接丟失；
? 只能跟蹤第一幀可見點，后續遮擋區域徹底斷裂。

而 D4RT 的優勢，恰恰就在這里體現得最明顯。

這張圖其實就是整篇論文最想講明白的一件事：

過去的方法，要么會重建，但不會理解動態；要么會跟蹤動態，但重建不完整。

D4RT 第一次把 “動態理解” 和 “整體重建” 真正統一了。

四、核心定量結果：D4RT 在點云和視頻深度上都沖到了第一梯隊

這張表很說明問題。

在最難的動態場景 Sintel 上，D4RT 的點云誤差直接從 1.x 量級打到 0.768；在視頻深度上，也把 AbsRel 壓到了當前最優水平附近甚至更優。

如果只看靜態場景，很多方法都還能勉強“卷一卷”；但一旦進入動態場景，D4RT 的領先幅度會明顯變大。

這也從側面說明，它真正學到的是 時空一致的 4D 表示，而不是靜態幾何的拼接近似。

五、它不只會“看大結構”，還保住了細節

很多統一模型都會遇到一個經典問題：一旦過于追求全局建模，局部邊界和細節就容易糊。

D4RT 為了解決這個問題，在查詢中額外加入了 局部 RGB patch 的外觀嵌入。

論文發現，這個設計非常值。

說明：
Figure 6 在 arXiv HTML 中為復合圖，直接展示為細節保真實驗圖，適合放在“細節保留”部分。

六、一個小設計，為什么能帶來這么大提升

這張表特別值得注意。

因為它說明 D4RT 的性能提升，不只是來自“大模型 + 大算力”，而是來自一個非常扎實的設計判斷：

全局場景表示負責理解時空結構，局部 patch 負責補足紋理和邊界細節。

兩者一結合，模型才真正做到：

既懂世界，又看得清局部。

七、為什么說它不是“功能拼盤”，而是真統一

這也是為什么我會覺得，這篇工作真正重要的不是“又刷了一個榜”，而是它把 4D 視頻理解重新整理了一遍：

不是更多模塊，不是更復雜 pipeline，而是用一個足夠干凈的接口，把原本分裂的任務收攏到了同一套表示里。

八、最后一句

如果說過去的視頻理解，更多是在做 “逐幀視覺 + 后處理補丁”，那么 D4RT 往前邁出的一步是：

讓模型第一次開始像在理解一個連續變化的 4D 世界。

它看到的不再只是某一幀里“這里有個點”，而是這個點來自哪里、會運動到哪里、該落在哪個坐標系里，以及它與整個動態場景的關系。

統一、準確、可擴展，還足夠快。

這可能就是動態 4D 重建下一階段最重要的方向。

文末摘要

1. 論文提出 D4RT，用統一查詢接口完成動態 4D 重建、點跟蹤、深度估計和相機參數恢復。
2. 核心公式是先編碼整段視頻得到全局場景表示：

再通過查詢：

解碼目標 3D 點：

3. 在動態場景上，D4RT 同時解決了 “純重建不會跟動態、純跟蹤又重建不完整” 的老問題。
4. 在位姿估計上達到 200+ FPS，比 VGGT 快約 9 倍，比 MegaSaM 快約 100 倍。
5. 在 Sintel 等高難動態基準上，點云與視頻深度結果進入 SOTA 第一梯隊。

論文信息

論文標題：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

論文地址：https://arxiv.org/abs/2512.08924

0人收藏

陳淑瑜

編輯

發私信

當月熱門文章