來源:公眾號“遙感與深度學習“原文鏈接:https://mp.weixin.qq.com/s/2bONrB7za70sCN9b43H-ig?scene=1&click_id=34
題目:F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation
會議: The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
論文: https://arxiv.org/abs/2506.07847
數據: DeepGlobe、Inria Aerial
年份: 2026 (本篇基于2025年6月arxiv版)
單位: 悉尼大學、阿德萊德大學、清華大學、埃迪斯科文大學
CVPR2026 遙感AI方向合集:CVPR2026

創新點
- 提出基于自適應頻率分解的多分支網絡 F2Net,將超高分辨率遙感圖像分解為高頻與低頻分量分別處理,兼顧細節保留與語義建模
- 設計混合頻率融合模塊(HFF),通過跨分支通道注意力實現高、低頻特征的層次化自適應聚合
- 提出跨頻率對齊損失(CFAL),利用對稱 KL 散度約束高低頻分支在語義層面保持一致性
- 提出跨頻率平衡損失(CFBL),顯式正則化各分支梯度范數,解決多分支聯合訓練中的梯度失衡問題
背景
超高分辨率(UHR)遙感圖像語義分割在城市規劃、環境監測等領域具有重要應用價值,但其極大的圖像尺寸給現有分割網絡帶來嚴峻的計算挑戰。傳統方法通常采用下采樣或裁塊兩種策略適配網絡輸入,前者丟失細粒度邊界細節,后者破壞全局上下文一致性。
為此,學界提出多分支架構(如 GLNet、ISDNet)以同時保留局部細節與全局語義,但這類方法存在兩個核心問題:一是分支內部計算效率低(如反復裁塊推理),二是多分支并行訓練引發梯度競爭,導致收斂不穩定與特征對齊困難。本文從頻率域視角出發,通過將圖像分解為高低頻分量并為各分量設計專屬分支,同時引入專用損失函數,系統性地解決上述問題。

數據
DeepGlobe
- 共 803 張超高分辨率衛星圖像,分辨率為 2448×2448 像素
- 按 455/207/142 劃分訓練、驗證和測試集
- 包含七類地表語義標注:城市、農業、牧草地、森林、水體、裸地及未知類(未知類不參與評估)
Inria Aerial
- 共 180 張高分辨率航空影像,分辨率為 5000×5000 像素,覆蓋多樣城市場景
方法
自適應頻率分解(AFD)
- 對輸入圖像先通過逐點卷積進行跨通道映射,再沿通道維度分組
- 為每組特征動態生成空間自適應低通濾波器(Softmax 歸一化),并通過單位核相減得到對應高通濾波器
- 輸出高頻分量(保留原始分辨率)與低頻分量(可安全下采樣),供后續分支分別處理
高頻分支
- 輸入為全分辨率高頻特征,采用基于狀態空間模型(VMamba)的多階段編碼器提取層次化表示
- 每個階段由多個 Visual State Space(VSS)塊構成,通過 SS2D 模塊捕獲空間長程依賴
- 相鄰階段間施加下采樣以逐步擴大感受野,最終輸出高頻語義特征圖
低頻分支
短程子分支
- 基于 CNN 骨干網絡(DeepLabv3+ResNet-18)對下采樣低頻分量建模局部語義特征
- 處理分辨率為原圖的 1/4,兼顧局部細節與計算效率
長程子分支
- 基于輕量級視覺 Transformer(TinyViT)建模長程全局依賴
混合頻率融合模塊(HFF)
- 對兩個低頻子分支分別施加通道注意力,再通過跨分支注意力矩陣建模兩者間的特征交互關系
- 融合后的低頻聯合特征再與高頻分支輸出經第二個 HFF 模塊進行最終聚合
跨頻率損失函數
CFAL
:采用對稱 KL 散度約束高、低頻分支輸出在語義層面的一致性,防止融合時的語義錯位CFBL
:計算各分支相對于交叉熵損失的梯度范數,并懲罰其與均值的偏差,抑制某一分支主導優化過程
結果與分析
F2Net 在 DeepGlobe 和 Inria Aerial 兩個基準上均達到當前最優性能,相比已有最佳 UHR 分割方法在 mIoU 上取得了顯著提升。消融實驗進一步驗證了各分支、融合模塊及損失函數的獨立貢獻,以及三者協同帶來的性能增益。



