0
| 本文作者: 陳淑瑜 | 2026-05-27 15:35 | 專題:CVPR 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議 |
來源:知乎博主“TopR”
原文鏈接:https://zhuanlan.zhihu.com/p/2027411504710922571
論文鏈接:https://arxiv.org/abs/2601.03824
項(xiàng)目代碼:https://github.com/CVL-UESTC/IDESplat
分享我們最近的一篇關(guān)于 Generalizable 3D Gaussian Splatting 的工作:IDESplat。這篇論文主要想解決一個(gè)很實(shí)際的問題:如何更準(zhǔn)確地估計(jì)深度進(jìn)而學(xué)習(xí)到更準(zhǔn)確的高斯參數(shù),實(shí)現(xiàn)更準(zhǔn)確的三維場(chǎng)景重建。
在 generalizable 3DGS 里,網(wǎng)絡(luò)需要直接預(yù)測(cè)一組 Gaussian 參數(shù)來完成場(chǎng)景重建和新視角合成。
其中最關(guān)鍵、也最難預(yù)測(cè)的,其實(shí)是 Gaussian 的位置(mean)。
現(xiàn)有很多方法通常會(huì)先預(yù)測(cè)深度,再把深度反投影成 3D 點(diǎn),作為 Gaussian 中心。這個(gè)思路本身沒有問題,但難點(diǎn)在于:深度估計(jì)夠不夠準(zhǔn)。
而現(xiàn)有方法里,一個(gè)比較普遍的限制是:它們大多只依賴 單次 warp 來估計(jì)深度概率。這樣做雖然直接,但對(duì)跨視角幾何信息的利用其實(shí)并不充分,所以預(yù)測(cè)出來的深度圖往往會(huì)比較粗,也不夠穩(wěn)定。深度一旦不準(zhǔn),后面的 Gaussian mean 就會(huì)跟著偏,最終影響重建質(zhì)量。
我們的想法其實(shí)很直接:
既然單次 warp 得到的深度概率不夠可靠,那就不要只做一次,而是把深度概率估計(jì)做成一個(gè)“迭代增強(qiáng)”的過程。
這就是 IDESplat 的核心思路:
通過 iterative depth probability estimation,讓模型在多輪 warp 中不斷強(qiáng)化高置信度的深度候選,逐步得到更精確的深度圖,最終預(yù)測(cè)出更準(zhǔn)確的 Gaussian mean。
我們提出了一個(gè)模塊,叫 Depth Probability Boosting Unit(DPBU)。
在每個(gè) DPBU 里,我們不會(huì)只做一次跨視角匹配,而是會(huì)做多次 warp,得到多個(gè)深度概率結(jié)果。然后,不是簡(jiǎn)單相加,而是采用一種乘法式增強(qiáng)的方式,把這些概率結(jié)果融合起來。
這樣做的直觀意義是:
如果某個(gè)深度候選在多次匹配里都表現(xiàn)穩(wěn)定,它的概率就會(huì)被不斷放大;
如果某個(gè)候選只是偶然匹配上了,但不夠穩(wěn)定,它的概率就會(huì)被抑制。
所以,DPBU 本質(zhì)上是在回答一個(gè)問題:
哪些深度位置,是在多輪跨視角幾何約束下依然成立的?
除了做概率增強(qiáng),我們還把整個(gè)深度估計(jì)設(shè)計(jì)成一個(gè)逐輪細(xì)化的過程。
具體來說:
第一輪先在一個(gè)較大的深度范圍里做粗搜索;
得到初始深度結(jié)果后,后續(xù)迭代圍繞當(dāng)前結(jié)果重新定義更小的搜索范圍;
同時(shí)逐步提高特征分辨率,讓后面的估計(jì)更細(xì)。
這個(gè)過程有點(diǎn)像“先粗定位,再局部精修”。
隨著迭代進(jìn)行,模型會(huì)逐漸把注意力集中到更可信的深度區(qū)域上,因此得到的深度圖也會(huì)越來越準(zhǔn)確。
多次 warp 會(huì)帶來一個(gè)問題:內(nèi)存開銷。
為了解決這個(gè)問題,我們?cè)O(shè)計(jì)了 Warp-Index Epipolar Attention。它不是像常規(guī)方法那樣保存完整的 dense warping features,而是只記錄 warp 對(duì)應(yīng)的索引,再結(jié)合稀疏矩陣乘法來完成相關(guān)性計(jì)算。
這樣做的好處是:
可以支持多輪 warp 和迭代優(yōu)化,同時(shí)把內(nèi)存成本控制在一個(gè)更合理的范圍內(nèi)。
除了 Gaussian mean 之外,其他 Gaussian 參數(shù)的預(yù)測(cè)也很重要。為此,我們?cè)O(shè)計(jì)了 Gaussian Focused Module(GFM)。
它的作用可以簡(jiǎn)單理解為:
在特征交互時(shí),不是讓所有 Gaussian token 都同等參與,而是盡量篩選出更相關(guān)的 token 來做注意力計(jì)算,減少無關(guān)信息帶來的噪聲。
這一步進(jìn)一步提升了特征表達(dá)質(zhì)量,也有助于最終重建效果。

圖:IDESplat 整體網(wǎng)絡(luò)架構(gòu)
第一,
我們提出了一個(gè)新的 generalizable 3DGS 框架 IDESplat,把深度估計(jì)從“單次預(yù)測(cè)”改成了“迭代增強(qiáng)”。
第二,
我們?cè)O(shè)計(jì)了 DPBU,通過多次 warp 結(jié)果的乘法式融合,提升深度概率估計(jì)的可靠性。
第三,
我們構(gòu)建了一個(gè)逐步縮小深度搜索范圍、逐步提升特征分辨率的迭代深度估計(jì)過程,使深度預(yù)測(cè)更細(xì)、更穩(wěn)。
第四,
我們?cè)O(shè)計(jì)了 Gaussian Focused Module,進(jìn)一步提升 Gaussian 特征交互的有效性。
實(shí)驗(yàn)結(jié)果表明,這個(gè)思路不僅有效,而且在性能和泛化上都比較突出。

圖:深度圖可視化對(duì)比(IDESplat vs 其他方法)
在 RealEstate10K 上,IDESplat 的 PSNR 達(dá)到 27.80 dB,相比 DepthSplat 提升了 0.33 dB。
更重要的是,我們的方法參數(shù)量只有對(duì)方的 10.7%,內(nèi)存占用也更低。
在 ACID 上,IDESplat 也取得了更好的結(jié)果。
而在跨數(shù)據(jù)集測(cè)試中,模型從 RE10K 直接遷移到 DTU 時(shí),PSNR 還能比 DepthSplat 高 2.95 dB,說明它并不只是對(duì)單一數(shù)據(jù)集有效,而是真的具備更強(qiáng)的幾何建模和泛化能力。

圖:IDESplat 新視角合成效果展示
這篇工作最想說明的一點(diǎn)其實(shí)是:
對(duì)于 generalizable 3DGS 來說,瓶頸往往不只是渲染本身,而是前面的深度概率估計(jì)是否足夠可靠。
IDESplat 本質(zhì)上是在做一件事:
把原來依賴單次 warp 的深度預(yù)測(cè),變成一個(gè)多輪確認(rèn)、逐步收斂的過程。
當(dāng)深度圖變得更準(zhǔn)確之后,Gaussian mean 的預(yù)測(cè)自然會(huì)更準(zhǔn),最終帶來更好的場(chǎng)景重建和新視角合成效果。
本專題其他文章