0
| 本文作者: 陳淑瑜 | 2026-05-29 10:53 | 專題:CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議 |
來(lái)源:AIGC Studio
原文鏈接:https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33
虛擬試穿一直是電商與內(nèi)容創(chuàng)作的剛需,但傳統(tǒng)視頻虛擬換衣技術(shù),長(zhǎng)期卡在服裝細(xì)節(jié)糊、背景閃、模型重、數(shù)據(jù)差四大痛點(diǎn)。2026 年 CVPR 最新接收的 KeyTailor,用一套關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入方案,不改動(dòng) DiT 主干、不加參、不降速,直接把服裝動(dòng)態(tài)細(xì)節(jié)、背景幀間一致性拉滿,搭配自研 15K 高清數(shù)據(jù)集 ViT-HD,全面超越現(xiàn)有 SOTA,讓高清、真實(shí)、流暢的視頻虛擬試穿成為現(xiàn)實(shí)。


當(dāng)前基于DiT的視頻試穿方法雖能生成連貫視頻,但在細(xì)粒度服裝動(dòng)態(tài)建模與背景時(shí)序一致性上仍存在明顯短板,且常因引入額外交互模塊導(dǎo)致計(jì)算開(kāi)銷激增。為此,團(tuán)隊(duì)創(chuàng)新性地提出"關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入"策略:利用關(guān)鍵幀天然包含前景動(dòng)態(tài)與背景一致性的特性,通過(guò)指令引導(dǎo)采樣篩選高信息量幀,并設(shè)計(jì)服裝細(xì)節(jié)增強(qiáng)(GDDE)與背景協(xié)同優(yōu)化(CBDO)雙模塊,將關(guān)鍵幀中的細(xì)粒度特征高效蒸餾至生成過(guò)程。該設(shè)計(jì)在不改動(dòng)DiT主干的前提下實(shí)現(xiàn)質(zhì)量躍升,兼具高效性與可擴(kuò)展性。
KeyTailor的總體框架。 KeyTailor 將參考服裝圖像 Iref、源視頻 Vin、其相應(yīng)的不可知視頻 Vagn、不可知掩模 Magn 和姿勢(shì)表示 P 作為輸入。這些輸入被編碼為與服裝相關(guān)的潛在變量 Lg,背景相關(guān)潛伏 Lbg、姿勢(shì)潛伏 Lp 和調(diào)整大小的蒙版 Lm。具體來(lái)說(shuō),與服裝相關(guān)的潛在變量是由 GDDE 生成的模塊,CBDO 模塊的背景相關(guān)潛在變量,以及可訓(xùn)練的姿勢(shì)引導(dǎo)器的姿勢(shì)潛在變量。隨后,所有這些潛在信息與噪聲潛在信息一起被注入 N 個(gè) DiT 塊中,以生成最終的試戴視頻令牌,然后由基于 VAE 的解碼器進(jìn)行解碼視頻解碼器合成輸出視頻。
KeyTailor 核心思路很直接:關(guān)鍵幀里藏著前景動(dòng)態(tài)和背景一致性的全部信息,不用改 DiT 架構(gòu),把關(guān)鍵幀信息高效注入即可。整體由三大核心模塊構(gòu)成,輕量、高效、效果強(qiáng)。

團(tuán)隊(duì)同步發(fā)布大規(guī)模高清數(shù)據(jù)集 ViT-HD: 15,070 個(gè)高質(zhì)量視頻; 分辨率 810×1080; 覆蓋上裝、下裝、全身裝,場(chǎng)景豐富、主體清晰、曝光正常。 高質(zhì)量數(shù)據(jù) + 強(qiáng)模型,從根源解決泛化不足問(wèn)題,讓虛擬試穿適配更多服裝與場(chǎng)景。


在 VFID、SSIM、LPIPS 等核心指標(biāo)上,KeyTailor 顯著領(lǐng)先:
KeyTailor+ViT-HD,以關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入為核心,用極簡(jiǎn)、輕量的方案,一次性解決虛擬試穿的細(xì)節(jié)、背景、效率、數(shù)據(jù)四大難題。作為 CVPR 2026 收錄的重磅成果,它將直接賦能電商虛擬試衣、短視頻穿搭創(chuàng)作、數(shù)字人服裝替換等場(chǎng)景,降低高清真實(shí)視頻生成門檻,推動(dòng) AIGC 在商業(yè)場(chǎng)景的深度落地。
本專題其他文章