NTU 曹子昂教授團隊：破解 3D 標注成本難題，只需一張圖片丨CVPR 2026

本文作者：鄭佳美

2026-06-05 19:02

導語：PhysX-Anythingt：可從一張照片自動生成可用于機器人訓練的物理 3D資產。

NTU 曹子昂教授團隊：破解 3D 標注成本難題，只需一張圖片丨CVPR 2026

PhysX-Anythingt：可從一張照片自動生成可用于機器人訓練的物理 3D資產。

作者丨鄭佳美、樊天驕

編輯丨鄭佳美

在生成式 AI 進入 3D 內容生產之后，行業最先解決的是“看起來像不像”的問題：一個模型能不能從文字或圖片生成外觀完整、紋理逼真、形狀合理的 3D 物體。

但隨著機器人、具身智能、數字孿生、AR / VR 和工業仿真的發展，真正制約應用落地的矛盾已經變了。現實世界中的物體不是靜態擺件，而是帶有尺度、材料、重量、關節、摩擦、碰撞和功能關系的物理對象。

一個柜子不僅要有柜門，還要知道門軸在哪里、能向哪個方向打開；一副眼鏡不僅要有鏡框和鏡腿，還要知道鏡腿能繞哪個關節折疊；一個水龍頭不僅要外形相似，還要能被旋轉、能和機械手發生接觸、能在仿真器里表現出合理運動。

換句話說，未來的 3D 生成如果只停留在“生成一個好看的模型”，就很難支撐機器人訓練、交互式場景構建和真實物理仿真。

這正是當前 3D 資產生成面臨的核心斷層：視覺資產越來越容易生成，但仿真資產依然高度依賴人工建模和手動標注。這個過程成本高、效率低，也很難規模化擴展到家庭、工廠、商場、醫院等復雜真實場景。

因此，行業真正需要的不只是“圖像到 3D”，而是“圖像到可交互、可運動、可仿真的物理 3D 資產”。

在這種背景下，南洋理工大學曹子昂團隊提出了《PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image》。試圖把單張真實圖像直接轉化為仿真可用的物理 3D 資產。

不僅恢復物體外形，還進一步推斷部件結構、關節關系、材料屬性、真實尺度、功能用途和文本描述，并輸出 URDF、XML 等可直接進入物理引擎的格式。

PhysX-Anything 的意義不只是讓 3D 生成結果更精細，而是把 3D 生成從“視覺建模”推進到“物理建模”，讓生成結果真正具備被機器人操作、被仿真系統調用、被交互場景使用的能力。

對于家庭機器人來說，這意味著它可以從一張柜子照片生成可開合的柜門資產，用于學習開門和抓取；對于 AR / VR 來說，這意味著虛擬物體不再只是擺在場景里的裝飾，而是可以被用戶真實交互；對于工業仿真和數字孿生來說，這意味著大量真實設備和日常物體有機會從照片快速轉化為可運行的仿真對象。

PhysX-Anything 的關鍵價值正在于此：它把 3D 資產生成的目標從“看起來真實”進一步推向“用起來真實”。

論文地址：https://arxiv.org/abs/2511.13648

從數據驗證到仿真可用

實驗結果顯示，研究團隊在 PhysX-Mobility 數據集上將 PhysX-Anything 與 URDFormer、Articulate-Anything、PhysXGen 進行對比，評估單張圖像生成的物理 3D 資產在幾何質量、物理屬性、關節結構和文本描述方面的表現。

整體來看，PhysX-Anything 在主要指標上表現最好，幾何質量達到 PSNR 20.35、CD 14.43、F-score 77.50，物體尺度誤差從 PhysXGen 的 43.44 降至 0.30，說明真實尺寸預測明顯更準確；

材料屬性、可供性、運動參數和描述質量也均優于對比方法，說明研究生成的物體不僅外形更完整，也更能反映真實材料、功能用途和關節運動關系。雷峰網

在真實網絡圖片測試中，研究使用約 100 張 in-the-wild 圖像，PhysX-Anything 的幾何 VLM 評分和運動參數 VLM 評分均達到 0.94，明顯高于 URDFormer、Articulate-Anything 和 PhysXGen，說明模型對非數據集物體也有較強泛化能力。

用戶研究中，14 名志愿者共給出 1,568 個有效評分，PhysX-Anything 在幾何、尺度、材料、可供性、運動參數和描述等維度都獲得更高偏好，其中幾何質量為 0.98，運動參數為 0.98，描述質量為 0.96，說明生成結果更符合人類判斷。

消融實驗進一步說明，最終表示方法優于 Voxel 版本和 Index 版本，最終版本達到 PSNR 20.35、CD 14.43、F-score 77.50，并在復雜結構和物理屬性預測上更穩定。

機器人仿真實驗中，研究團隊將生成的水龍頭、柜門、眼鏡、打火機、筆記本和把手等資產導入 MuJoCo 風格仿真環境，用于水龍頭開關、門開合、眼鏡折疊、打火機打開、筆記本合上和把手操作等任務，結果說明生成資產可以通過 URDF 和 XML 直接用于仿真，不只是視覺 3D 模型，而是具備物理可執行性的仿真可用 3D 資產。

從幾何識別到物理理解

實驗經過主要圍繞單張真實圖像生成仿真可用的物理 3D 資產展開，研究團隊希望系統不僅生成物體外形，還能同時得到部件結構、關節關系、材料、尺度、可供性和文本描述，并輸出 URDF、XML、部件級 mesh 等可用于仿真的格式。

為支持訓練和評估，研究團隊構建 PhysX-Mobility 數據集，數據來自 PartNet-Mobility，包含超過 2K 個常見真實物體，覆蓋 47 類物體，例如馬桶、風扇、相機、咖啡機、訂書機、柜子和椅子等。

標注內容包括絕對尺度、部件層級、材料、密度、關節類型、運動方向、運動范圍、可供性和部件文本描述，使原有物理 3D 數據類別擴展超過 2 倍。

模型輸入為單張 in-the-wild 圖像，因此需要從單一視角中推斷可能被遮擋的結構、復雜背景下的物體形狀、不明確的材質、不可見的內部構造，以及物體真實的關節運動方式。

生成過程采用多輪對話，第一輪由基于 Qwen2.5 的 VLM 生成整體物理表示，內容包括 Name、Category、Dimension、Parts、Material、Density、Affordance、Kinematics、Description 和 Group_info，用來描述物體類別、尺寸、部件組成、材料屬性、功能用途和運動關系。

之后從第二輪到 N+1 輪逐個生成部件幾何，N 代表物體部件數量，每個部件輸出 32 × 32 × 32 的 3D voxel grid，并用被占用 voxel 索引和連續區間合并方式表達幾何，從而降低 VLM 上下文壓力，減少不同部件之間的干擾。

由于原始 mesh 和 vertex quantization 會產生過長 token 序列，研究人員將幾何表達改為 voxelization、voxel index 和 range merge，使 mesh 到 voxel 約壓縮 74×，最終約壓縮 193×，同時保留顯式幾何結構，也不需要額外 special tokens 或新 tokenizer。

隨后，系統使用 controllable flow transformer 根據粗 voxel 細化幾何，再結合圖像條件、文本條件、粗 voxel 條件、噪聲和時間步生成高分辨率幾何特征。

接著通過預訓練 structured latent diffusion model 生成 mesh surface、radiance fields 和 3D Gaussian，并用 nearest-neighbor 根據 voxel assignment 分割出部件級 mesh，最后整合全局物理信息和細粒度幾何，得到 URDF、XML 和部件級 mesh。

實驗評估包括多個部分，研究團隊將 PhysX-Anything 與 URDFormer、Articulate-Anything 和 PhysXGen 對比，在 PhysX-Mobility 上用 PSNR、CD、F-score、Absolute scale、Material、Affordance、Kinematic parameters 和 Description 衡量幾何質量與物理可用性。

又用約 100 張互聯網真實圖片測試泛化能力，通過 GPT-5 評價幾何和關節運動，同時安排 14 名志愿者完成 1,568 個評分，補充人類主觀評價。

最后，研究團隊通過消融實驗比較 voxel、index 和最終版本，驗證表示壓縮策略對幾何保真度、物理屬性預測和復雜結構穩定性的影響。

并在 MuJoCo 風格仿真環境中導入 URDF 和 XML，檢查生成資產是否能發生碰撞交互、關節是否能正確運動、物理屬性是否能支持策略學習，以及生成資產是否能直接用于接觸豐富的機器人操作任務。

開創 3D 生成新范式

在方法和技術上，PhysX-Anything 把 VLM 從 2D 視覺任務擴展到 3D 物理生成，證明了 VLM 也能有效處理幾何、關節和物理屬性的聯合建模。

而 193 倍 token 壓縮的表示方法對后續研究也有參考價值——這種 "在 token 預算內最大化信息保留" 的思路，可以應用到其他需要處理 3D 數據的 VLM 任務中。雷峰網

同時它也讓 3D 資產生成更接近真實世界的應用需求: 過去很多 3D 生成集中在外觀重建上，生成的模型可以以假亂真，但它們無法用于機器人仿真、自動駕駛訓練等需要物理真實性的場景。

PhysX-Anything 還證明了單目 3D 生成也可以同時處理幾何、關節和物理屬性，對于服務機器人、家庭機器人、AR / VR 和工業仿真都有價值。

對仿真行業來說，PhysX-Anything 具有超高的實用價值。PhysX-Anything大幅降低了可仿真 3D 資產的制作門檻：以前需要一個團隊手搓建模并人工標注物理屬性，現在只需一張照片就能自動生成。無論是在游戲開發、影視特效還是對工業仿真、自動駕駛仿真等領域，PhysX-Anything 都具有重要的意義。

總而言之，PhysX-Anything 的價值在于把 3D 資產生成從"看起來真實"推進到"用起來真實"，為未來更實用的家庭機器人、輔助設備和 AR / VR 應用都提供了基礎。它是一個起點——讓從圖片到仿真資產的生成范式成為了一種新的可能。

PhysX-Anythingt 背后的研究者

本論文一作為 Ziang Cao（曹子昂），現為新加坡 NTU 計算機與數據科學學院博士研究生，隸屬 MMLab@NTU 實驗室，師從著名計算機視覺學者 Ziwei Liu 。其研究方向主要集中在計算機視覺、深度學習、機器人智能以及3D生成領域。

曹子昂的研究重點逐漸聚焦于物理智能與具身智能所需的 3D 資產生成技術，希望讓AI生成的3D模型不僅具備視覺外觀，還能夠具備真實世界中的物理屬性、運動結構和交互能力。

在學術成果方面，他已連續在 CVPR、NeurIPS、ICLR、TPAMI、ICCV等國際頂級會議和期刊發表多篇論文。

在榮譽方面，曹子昂于 2025年獲得 Google PhD Fellowship（Machine Perception方向），并于 2026 年獲得 China3DV Rising Star Award，成為計算機視覺與3D生成領域備受關注的新生代青年學者之一。

參考鏈接：https://ziangcao0312.github.io/

論文的通訊作者為 Ziwei Liu（劉子緯）現任新加坡 NTU 計算與數據科學學院副教授，MMLab@NTU 核心負責人之一，長期從事計算機視覺、機器學習、計算機圖形學、多模態生成模型以及具身智能等方向研究。

劉子緯于 CUHK MMLab 獲得博士學位，師從計算機視覺領域著名學者 Xiaoou Tang 和 Xiaogang Wang。先后在美國 University of California, Berkeley 和香港中文大學從事博士后研究工作，曾在微軟研究院和谷歌研究院實習。

他在計算機視覺與人工智能領域發表論文200余篇，研究成果發表于 TPAMI、IJCV、CVPR、ICCV、ECCV、NeurIPS、ICLR 等國際頂級期刊和會議。

其中由其團隊構建的CelebA數據集已成為計算機視覺領域最具影響力的人臉屬性數據集之一，被全球學術界和工業界廣泛采用。

在學術榮譽方面，劉子緯先后獲得 PAMI Mark Everingham Prize、MIT Technology Review Asia-Pacific Innovators Under 35（TR35）、Asian Young Scientist Fellowship 以及新加坡總統青年科學家獎等重要獎項。

同時，他長期擔任 CVPR、ICCV、ECCV、NeurIPS、ICLR 等國際頂會領域主席及程序委員會成員，是當前國際生成式視覺 AI、3D 生成與具身智能領域最具影響力的青年學者之一。