0
| 本文作者: 陳淑瑜 | 2026-06-02 18:04 |
來源:公眾號“智能CV”
原文鏈接:https://mp.weixin.qq.com/s/3Ffpo_6rwTspweLdk5RiWw?scene=1&click_id=37

這篇論文聚焦于多標(biāo)注者醫(yī)學(xué)圖像分割。在醫(yī)學(xué)影像中,不同醫(yī)生對同一病灶邊界的判斷常常并不完全一致,例如肺結(jié)節(jié)、鼻咽癌腫瘤區(qū)域等任務(wù)中,病灶邊界模糊、影像質(zhì)量差異、醫(yī)生經(jīng)驗(yàn)不同,都會導(dǎo)致標(biāo)注結(jié)果存在明顯差異。
傳統(tǒng)方法通常會把多個(gè)醫(yī)生的標(biāo)注通過多數(shù)投票、平均融合或 STAPLE 等方式合成為一個(gè)“共識標(biāo)簽”。但這類做法會壓縮掉專家之間真實(shí)存在的差異,使模型過度自信,無法表達(dá)臨床不確定性。近年來的概率分割方法,如 Probabilistic U-Net、D-Persona 等,開始嘗試建模多種可能的分割結(jié)果,但仍存在兩個(gè)問題:
掃描儀噪聲、成像偽影與真實(shí)標(biāo)注差異容易混在一起
個(gè)體醫(yī)生的標(biāo)注風(fēng)格建模不充分
因此,本文提出一個(gè)新的框架:Harmonizer Network,目標(biāo)是在多標(biāo)注者醫(yī)學(xué)分割中同時(shí)解決“設(shè)備/噪聲差異”和“醫(yī)生標(biāo)注風(fēng)格差異”。

本文的整體框架如圖1所示。模型以 Probabilistic U-Net 為基礎(chǔ),加入兩個(gè)關(guān)鍵模塊:Noise Harmonizer 和 Frequency-Prompt Personalization Module,并使用 GED 損失約束預(yù)測分布與真實(shí)多醫(yī)生標(biāo)注分布的一致性。
圖1展示了 Harmonizer Network 的主干結(jié)構(gòu)。輸入醫(yī)學(xué)圖像經(jīng)過編碼器、潛變量空間和解碼器生成分割結(jié)果。在解碼器不同層中,作者插入了 Harmonizer 模塊,對特征進(jìn)行動態(tài)調(diào)制。
其核心思想是:
模型不應(yīng)把掃描儀差異、運(yùn)動偽影、強(qiáng)度漂移等成像問題誤認(rèn)為醫(yī)生之間的診斷差異。因此,作者設(shè)計(jì)了一個(gè)輕量級的 Noise Harmonizer,通過學(xué)習(xí)一組“偽影 token”,對不同層的特征生成調(diào)制參數(shù):

其中,
這一模塊的作用可以概括為:
先把設(shè)備和采集噪聲壓下去,再讓模型去學(xué)習(xí)真正有臨床意義的標(biāo)注不確定性。
本文第二個(gè)重要創(chuàng)新是 High-Frequency Prompt / Frequency-Prompt Personalization Module,結(jié)構(gòu)見圖2。

作者認(rèn)為,不同醫(yī)生的分割風(fēng)格往往體現(xiàn)在高頻細(xì)節(jié)上,例如:
因此,作者沒有只在普通空間特征上做個(gè)性化,而是使用 離散小波變換 DWT 將特征分解為低頻和高頻子帶:
隨后模型通過 Rater-Aware Prompt Projection,RAPP 生成與具體標(biāo)注者相關(guān)的頻率提示,再通過注意力機(jī)制調(diào)制高頻特征。最后利用 IDWT 還原為完整特征,并生成醫(yī)生個(gè)性化的潛變量
簡單說,圖2說明了本文如何把“醫(yī)生風(fēng)格”轉(zhuǎn)化為頻率域提示,使模型能夠生成不同醫(yī)生風(fēng)格下的個(gè)性化分割結(jié)果。
本文還使用 Generalized Energy Distance,GED 作為分布對齊損失。它衡量模型生成的多個(gè)預(yù)測分割與真實(shí)多個(gè)醫(yī)生標(biāo)注之間的分布距離。
GED 損失由兩部分組成:
因此,GED 的作用是讓模型做到:
本文采用兩階段訓(xùn)練:
第一階段訓(xùn)練 Probabilistic U-Net 主干和 Noise Harmonizer,目標(biāo)是學(xué)習(xí)穩(wěn)定、去噪、跨設(shè)備一致的潛空間表示。
第二階段凍結(jié)主干和 Harmonizer,只訓(xùn)練頻率個(gè)性化模塊,使其學(xué)習(xí)不同醫(yī)生的標(biāo)注風(fēng)格。
這種設(shè)計(jì)避免了個(gè)性化模塊直接學(xué)習(xí)到設(shè)備噪聲,從而更好地區(qū)分“成像噪聲”和“醫(yī)生差異”。

本文主要在兩個(gè)多標(biāo)注者醫(yī)學(xué)圖像分割數(shù)據(jù)集上驗(yàn)證方法:
LIDC-IDRI
NPC-170
表1比較了 Probabilistic U-Net、D-Persona 和本文方法在 LIDC-IDRI 與 NPC-170 上的 GED、Soft Dice、Dice max、Dice match 等指標(biāo)。
在 LIDC-IDRI 上,當(dāng)采樣數(shù)為 50 時(shí):
| 0.1048 | 91.81 | 92.28 | 91.94 |
在 NPC-170 上,本文方法同樣取得最低 GED:
| 0.1758 | 84.83 | 82.65 |
這說明本文方法能夠更好地?cái)M合真實(shí)多醫(yī)生標(biāo)注分布,生成的分割結(jié)果既有多樣性,又不會偏離合理解剖結(jié)構(gòu)。

表2展示了 LIDC-IDRI 上的個(gè)性化分割結(jié)果。本文方法在平均個(gè)性化 Dice 上達(dá)到 90.78%,高于 D-Persona 的 89.17%。
| 0.1419 | 91.35 | 92.65 | 90.00 | 90.78 |
表3展示了 NPC-170 上的結(jié)果。本文方法的平均個(gè)性化 Dice 為 81.63%,優(yōu)于 D-Persona 的 80.40%。
| 0.2685 | 83.10 | 84.46 | 81.63 | 81.63 |
這些結(jié)果表明,頻率域提示確實(shí)能更好捕捉不同醫(yī)生的邊界風(fēng)格,而不是簡單生成隨機(jī)多樣化結(jié)果。
圖3展示了 LIDC-IDRI 和 NPC-170 上的多醫(yī)生標(biāo)注、模型預(yù)測和誤差圖。紅色邊界表示真實(shí)標(biāo)注,藍(lán)色邊界表示模型預(yù)測。
從圖3可以看出,本文方法在邊界模糊、醫(yī)生意見不一致的區(qū)域,能夠生成較合理的個(gè)性化輪廓;在醫(yī)生一致性較高的區(qū)域,預(yù)測邊界也更加穩(wěn)定。這說明模型的不確定性主要集中在真實(shí)存在爭議的區(qū)域,而不是隨機(jī)噪聲區(qū)域。
補(bǔ)充材料中還驗(yàn)證了方法在不同擾動下的魯棒性,包括高斯噪聲、模糊、亮度/對比度擾動等。表5顯示,在強(qiáng)高斯噪聲
| 84.27 | 6.53 |
這說明 Noise Harmonizer 對成像噪聲確實(shí)有抑制作用。
此外,圖10展示了頻率模塊前后的頻譜響應(yīng)。加入頻率適配器后,高頻響應(yīng)明顯增強(qiáng),說明該模塊確實(shí)強(qiáng)化了邊界和紋理細(xì)節(jié),有助于個(gè)性化分割。
這篇論文提出的 Harmonizer Network 解決了多標(biāo)注者醫(yī)學(xué)圖像分割中的兩個(gè)關(guān)鍵問題:一是成像設(shè)備和噪聲導(dǎo)致的偽不確定性,二是醫(yī)生個(gè)體標(biāo)注風(fēng)格帶來的真實(shí)不確定性。
其核心貢獻(xiàn)可以概括為三點(diǎn):
第一,提出 Noise Harmonizer,通過動態(tài)特征調(diào)制抑制掃描儀和采集噪聲,使?jié)摽臻g更加穩(wěn)定,避免模型把噪聲誤認(rèn)為臨床差異。
第二,提出 頻率域個(gè)性化提示模塊,利用小波變換提取高頻邊界與紋理信息,從而更細(xì)致地建模不同醫(yī)生的標(biāo)注習(xí)慣。
第三,引入 GED 分布約束,讓模型預(yù)測分布與真實(shí)多醫(yī)生標(biāo)注分布對齊,在專家一致區(qū)域保持確定性,在專家分歧區(qū)域保留多樣性。
整體來看,本文方法不僅提升了分割精度,也增強(qiáng)了醫(yī)學(xué)分割模型的可解釋性和臨床可信度。它的意義不只是“分得更準(zhǔn)”,而是讓模型能夠回答一個(gè)更臨床化的問題:不同醫(yī)生為什么會分得不一樣,模型又該如何合理表達(dá)這種不確定性。