IDESplat：用于可泛化 3D 高斯?jié)姙R的迭代深度概率估計(jì)方法｜ CVPR 2026

本文作者：陳淑瑜

2026-05-27 15:35

導(dǎo)語：這篇論文主要想解決一個(gè)很實(shí)際的問題：如何更準(zhǔn)確地估計(jì)深度進(jìn)而學(xué)習(xí)到更準(zhǔn)確的高斯參數(shù)，實(shí)現(xiàn)更準(zhǔn)確的三維場(chǎng)景重建。

來源：知乎博主“TopR”

原文鏈接：https://zhuanlan.zhihu.com/p/2027411504710922571

論文鏈接：https://arxiv.org/abs/2601.03824

項(xiàng)目代碼：https://github.com/CVL-UESTC/IDESplat

分享我們最近的一篇關(guān)于 Generalizable 3D Gaussian Splatting 的工作：IDESplat。這篇論文主要想解決一個(gè)很實(shí)際的問題：如何更準(zhǔn)確地估計(jì)深度進(jìn)而學(xué)習(xí)到更準(zhǔn)確的高斯參數(shù)，實(shí)現(xiàn)更準(zhǔn)確的三維場(chǎng)景重建。

1. 問題到底出在哪？

在 generalizable 3DGS 里，網(wǎng)絡(luò)需要直接預(yù)測(cè)一組 Gaussian 參數(shù)來完成場(chǎng)景重建和新視角合成。

其中最關(guān)鍵、也最難預(yù)測(cè)的，其實(shí)是 Gaussian 的位置（mean）。

現(xiàn)有很多方法通常會(huì)先預(yù)測(cè)深度，再把深度反投影成 3D 點(diǎn)，作為 Gaussian 中心。這個(gè)思路本身沒有問題，但難點(diǎn)在于：深度估計(jì)夠不夠準(zhǔn)。

而現(xiàn)有方法里，一個(gè)比較普遍的限制是：它們大多只依賴單次 warp 來估計(jì)深度概率。這樣做雖然直接，但對(duì)跨視角幾何信息的利用其實(shí)并不充分，所以預(yù)測(cè)出來的深度圖往往會(huì)比較粗，也不夠穩(wěn)定。深度一旦不準(zhǔn)，后面的 Gaussian mean 就會(huì)跟著偏，最終影響重建質(zhì)量。

2. 我們的核心想法是什么？

我們的想法其實(shí)很直接：

既然單次 warp 得到的深度概率不夠可靠，那就不要只做一次，而是把深度概率估計(jì)做成一個(gè)“迭代增強(qiáng)”的過程。

這就是 IDESplat 的核心思路：

通過 iterative depth probability estimation，讓模型在多輪 warp 中不斷強(qiáng)化高置信度的深度候選，逐步得到更精確的深度圖，最終預(yù)測(cè)出更準(zhǔn)確的 Gaussian mean。

3. IDESplat 具體是怎么做的？

（1）用 DPBU 做深度概率增強(qiáng)

我們提出了一個(gè)模塊，叫 Depth Probability Boosting Unit（DPBU）。

在每個(gè) DPBU 里，我們不會(huì)只做一次跨視角匹配，而是會(huì)做多次 warp，得到多個(gè)深度概率結(jié)果。然后，不是簡(jiǎn)單相加，而是采用一種乘法式增強(qiáng)的方式，把這些概率結(jié)果融合起來。

這樣做的直觀意義是：

如果某個(gè)深度候選在多次匹配里都表現(xiàn)穩(wěn)定，它的概率就會(huì)被不斷放大；

如果某個(gè)候選只是偶然匹配上了，但不夠穩(wěn)定，它的概率就會(huì)被抑制。

所以，DPBU 本質(zhì)上是在回答一個(gè)問題：

哪些深度位置，是在多輪跨視角幾何約束下依然成立的？

（2）把深度估計(jì)做成逐步細(xì)化的過程

除了做概率增強(qiáng)，我們還把整個(gè)深度估計(jì)設(shè)計(jì)成一個(gè)逐輪細(xì)化的過程。

具體來說：

第一輪先在一個(gè)較大的深度范圍里做粗搜索；

得到初始深度結(jié)果后，后續(xù)迭代圍繞當(dāng)前結(jié)果重新定義更小的搜索范圍；

同時(shí)逐步提高特征分辨率，讓后面的估計(jì)更細(xì)。

這個(gè)過程有點(diǎn)像“先粗定位，再局部精修”。

隨著迭代進(jìn)行，模型會(huì)逐漸把注意力集中到更可信的深度區(qū)域上，因此得到的深度圖也會(huì)越來越準(zhǔn)確。

（3）進(jìn)一步提升效率：Warp-Index Epipolar Attention

多次 warp 會(huì)帶來一個(gè)問題：內(nèi)存開銷。

為了解決這個(gè)問題，我們?cè)O(shè)計(jì)了 Warp-Index Epipolar Attention。它不是像常規(guī)方法那樣保存完整的 dense warping features，而是只記錄 warp 對(duì)應(yīng)的索引，再結(jié)合稀疏矩陣乘法來完成相關(guān)性計(jì)算。

這樣做的好處是：

可以支持多輪 warp 和迭代優(yōu)化，同時(shí)把內(nèi)存成本控制在一個(gè)更合理的范圍內(nèi)。