0
| 本文作者: 陳淑瑜 | 2026-06-05 18:52 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“visual AI“
原文鏈接:https://mp.weixin.qq.com/s/ZLQVjw-W-tWQOY-x6mxmTA

· · ·
1摘要 ?
3D Gaussian Splatting(3DGS)近年來在實時、高保真新視角合成中取得了顯著進展,能夠用顯式 Gaussian 表示重建逼真的真實場景。然而,這些高質量 3DGS 場景大多仍然是“靜態可看”的:它們可以被渲染,卻很難像真實世界中的物體一樣被碰撞、變形,或與流體、布料、剛體、機器人等復雜資產發生物理交互。
造成這一問題的核心原因在于 表示鴻溝(representation gap):3DGS 是面向渲染的視覺表示,而成熟物理引擎通常基于粒子、網格、剛體、流體、布料等物理表示運行。已有 physics-for-3DGS 方法大多為 3DGS 單獨設計封閉求解器,通常只能在孤立環境或理想平面上演示物體級交互,難以支持復雜真實場景、異構資產和多求解器耦合。
為了解決這一問題,我們提出 Representation Abstraction Framework(RAF)。RAF 不再為 3DGS 重新發明一個封閉物理求解器,而是將 3DGS、虛擬 mesh、流體粒子、布料、剛體以及真實捕獲的靜態場景統一抽象到同一個物理仿真上下文中,并在仿真后將物理狀態重新映射回高保真可渲染資產。
通過 RAF,真實捕獲的 3DGS 資產能夠在復雜場景中與標準 CG 資產進行雙向物理交互,例如流體沖刷 3DGS 軟體、布料披掛在捕獲雕像上、剛體水果在 3DGS 容器中碰撞,以及機器人操作虛擬物體等。

圖 1:RAF 旨在彌合真實捕獲 3DGS 資產與工業級物理引擎之間的表示鴻溝。
· · ·
2背景介紹 ?
3DGS 的出現極大推動了真實場景的高保真重建與實時渲染。但從“能看”到“能互動”,3DGS 仍面臨關鍵瓶頸:每個 Gaussian 主要由位置、協方差、顏色球諧系數和透明度等視覺屬性組成;而物理引擎關心的是質量、速度、碰撞邊界、材料參數、流體壓力和布料約束等物理屬性。二者并沒有天然兼容關系。
現有方法通常嘗試將 3DGS 直接塞進某一種特定物理求解器,例如 MPM 或 PBD。這類方法雖然能展示一些有趣的物體級物理效果,但容易受到三點限制:一是系統中通常只有 GS 粒子,難以與外部 mesh、fluid、rigid body 等標準資產交互;二是大多運行在空場景或理想平面中,無法處理真實捕獲場景中的復雜靜態碰撞幾何;三是通常綁定單一求解器,難以接入工業級多求解器物理系統。

表 1:與已有 physics-for-3DGS 方法相比,RAF 更強調場景級、異構資產、多求解器和工業級渲染能力。
與其為 3DGS 再造一個封閉物理求解器,不如構建一個“表示抽象層”,讓 3DGS 能夠進入成熟、異構、可擴展的物理仿真生態。
· · ·
3方法介紹 ?
RAF 的整體思路可以概括為三步:先翻譯,再仿真,最后翻譯回來。
具體來說,RAF 首先將不同來源、不同表示形式的資產抽象為物理引擎能夠理解的統一輸入;隨后在統一仿真內核中進行多求解器耦合;最后再將仿真后的物理狀態映射回原始視覺資產,實現高保真渲染。

圖 2:RAF 的整體框架,包括資產準備與表示抽象、統一仿真內核,以及視覺重耦合與 UE5 渲染。
RAF 首先構建兩類世界:靜態世界 和 動態世界。靜態世界指場景中不會運動、但會參與碰撞的幾何結構,例如真實捕獲的桌面、花園、雕像和房間。RAF 通過多視角圖像重建、Gaussian segmentation、surface reconstruction 等流程,從真實捕獲場景中提取靜態碰撞邊界,形成統一的靜態碰撞 mesh。
動態世界則包含所有會參與物理運動的對象,例如捕獲的 3DGS 物體、虛擬 mesh、外部流體粒子、布料、剛體和機器人等。對于 3DGS 動態物體,RAF 會從其連續 opacity field 中采樣內部物理粒子,使原本面向表面渲染的 Gaussian 表示獲得可仿真的體積物理結構。對于虛擬 mesh,RAF 通過采樣將其轉化為物理粒子,并保存 mesh 頂點與粒子之間的綁定關系,用于后續形變回傳。
不管原始資產是 3DGS、mesh、fluid 還是 cloth,進入物理內核之前,都會被抽象到統一的物理表示中。
完成表示抽象后,RAF 將統一粒子列表和靜態碰撞 mesh 輸入到仿真內核中。這個內核是 solver-agnostic 的,可以調度多種專用求解器,例如用于軟體和連續體的 MPM、用于流體的 SPH、用于布料和約束系統的 PBD / XPBD,以及用于剛體和機器人的 rigid-body / articulated-body solver。
RAF 的統一內核負責處理這些異構求解器之間的耦合,例如流體與軟體之間的壓力交換、剛體與粒子之間的碰撞、布料與復雜靜態幾何之間的接觸等。這使得流體不再只是穿過 3DGS 物體,而是可以撞擊、推動、壓縮并停留在其表面;布料也不再只能落在理想平面上,而是能夠真實披掛在復雜捕獲雕像上。
物理仿真得到的是粒子的新位置、速度和形變梯度等物理狀態。為了得到最終高保真視覺效果,RAF 會把這些物理狀態重新映射回各類視覺資產:3DGS 資產通過更新 Gaussian center 和 covariance 表現形變;mesh 資產通過 barycentric weights 將粒子運動傳遞回頂點;流體粒子則直接作為可視化狀態。
最后,RAF 將結果序列化為 .splat、.abc、粒子緩存等資產格式,并導入 Unreal Engine 5 進行渲染。借助 UE5 的 Lumen 全局光照和 ray-traced shadows,RAF 能夠在統一場景中渲染 3DGS、mesh、流體和布料等多類資產,實現兼具物理真實感與視覺真實感的動態結果。
· · ·
4實驗結果 ?
RAF 的實驗并不只是展示單個物體在空場景中的運動,而是圍繞五類具有代表性的場景級異構物理交互展開。這些場景覆蓋流體、軟體、布料、剛體、機器人、3DGS 物體和真實捕獲環境等多種資產與求解器。

圖 3:RAF 在真實捕獲 3DGS 場景中實現多種場景級異構物理仿真。
靜態圖很難完整體現物理仿真的時序穩定性和交互細節。下面 5 個短動圖對應論文中的代表性場景,分別覆蓋流體、軟體、機器人、布料和剛體容器交互。

Demo 1SPH 流體被倒入虛擬碗中,同時與虛擬 mesh 和真實捕獲的 3DGS 花園桌面發生交互。

Demo 2高粘度流體與捕獲 3DGS 軟體 donut 發生 SPH–MPM 雙向耦合。

Demo 3機器人手臂在真實捕獲桌面場景中操作虛擬剛體,展示 articulated-body solver 與場景級碰撞的結合。

Demo 4PBD 布料落在真實捕獲雕像上,并沿著復雜非凸幾何產生披掛、折疊和滑動。

Demo 5多個虛擬剛體水果在導入的 3DGS 容器中發生碰撞和堆疊。
這些結果共同說明,RAF 不僅能讓 3DGS 作為動態軟體參與仿真,也能讓真實捕獲場景和導入的 3DGS 資產作為復雜靜態環境參與碰撞,從而支持更豐富的場景級組合。
· · ·
5消融分析 ?
為了驗證 RAF 中各個關鍵模塊的必要性,論文從統一仿真內核、場景級靜態幾何和視覺重耦合三個方面進行了消融分析。

圖 4:沒有統一仿真內核時,SPH 流體會直接穿過 MPM 軟體;完整 RAF 能正確處理流體與 3DGS 軟體之間的碰撞和耦合。

圖 5:沒有靜態碰撞 mesh 時,布料只能落到理想平面或穿過雕像;完整 RAF 能讓布料真實披掛在復雜捕獲幾何上。

圖 6:僅有物理粒子無法產生高保真視覺結果;RAF 的視覺重耦合層能夠將稀疏物理狀態恢復為逼真的 3DGS / mesh 渲染資產。
此外,論文也對比了傳統 photogrammetry pipeline。傳統 photogrammetry 雖然可以直接生成 mesh,但在復雜結構、細小部件和真實場景細節上容易出現 blobby artifacts 或缺失。RAF 利用 3DGS 的高保真捕獲能力,再通過表示抽象層將其接入物理仿真,從而兼顧真實視覺質量和物理交互能力。

圖 7:傳統 photogrammetry 在復雜結構上容易出現幾何偽影;基于 3DGS 的 RAF 能保留更高質量的真實場景細節,并進一步賦予其物理交互能力。
· · ·
6總結 ??
本文提出了 Representation Abstraction Framework(RAF),一個用于 3D Gaussian Splatting 的場景級異構物理仿真框架。
RAF 的核心思想不是為 3DGS 構建另一個封閉的專用物理求解器,而是通過表示抽象層,將 3DGS、虛擬 mesh、流體、布料、剛體、機器人以及真實捕獲靜態場景統一到成熟的多求解器物理系統中。
具體而言,RAF 包含三個關鍵階段:首先,將真實捕獲 3DGS、虛擬 mesh 和粒子系統統一轉換為物理內核可處理的粒子與碰撞邊界;隨后,通過 MPM、SPH、PBD、rigid-body、articulated-body 等多類求解器實現場景級異構耦合;最后,將仿真后的物理狀態映射回 3DGS、mesh 和粒子資產,并在 Unreal Engine 5 中渲染最終結果。
通過一系列復雜場景實驗,RAF 展示了此前 physics-for-3DGS 方法難以實現的能力:流體與 3DGS 軟體雙向交互、布料與真實捕獲復雜幾何接觸、機器人與虛擬剛體操作、剛體在 3DGS 容器中碰撞等。
當前 RAF 面向離線、電影級高質量內容制作。未來,將該框架進一步拓展到實時交互場景,并自動估計真實捕獲物體的物理材料參數,將是非常有潛力的方向。
本專題其他文章