CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質(zhì)感，15K 高清數(shù)據(jù)集 ViT-HD 已經(jīng)開(kāi)源。

本文作者：陳淑瑜

2026-05-29 10:53

專題：CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

導(dǎo)語(yǔ)：026 年 CVPR 最新接收的 KeyTailor，用一套關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入方案，不改動(dòng) DiT 主干、不加參、不降速，直接把服裝動(dòng)態(tài)細(xì)節(jié)、背景幀間一致性拉滿

來(lái)源：AIGC Studio

原文鏈接：https://mp.weixin.qq.com/s/pUXcvlhrYNbc2Myxa4zdZg?scene=1&click_id=33

虛擬試穿一直是電商與內(nèi)容創(chuàng)作的剛需，但傳統(tǒng)視頻虛擬換衣技術(shù)，長(zhǎng)期卡在服裝細(xì)節(jié)糊、背景閃、模型重、數(shù)據(jù)差四大痛點(diǎn)。2026 年 CVPR 最新接收的 KeyTailor，用一套關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入方案，不改動(dòng) DiT 主干、不加參、不降速，直接把服裝動(dòng)態(tài)細(xì)節(jié)、背景幀間一致性拉滿，搭配自研 15K 高清數(shù)據(jù)集 ViT-HD，全面超越現(xiàn)有 SOTA，讓高清、真實(shí)、流暢的視頻虛擬試穿成為現(xiàn)實(shí)。

CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質(zhì)感，15K 高清數(shù)據(jù)集 ViT-HD 已經(jīng)開(kāi)源。

unsetunset相關(guān)鏈接unsetunset

論文：https://arxiv.org/abs/2512.20340
主頁(yè)：https://huggingface.co/datasets/zijiyingcai/ViT-HD
數(shù)據(jù)集：https://huggingface.co/datasets/zijiyingcai/ViT-HD

unsetunset論文介紹unsetunset

當(dāng)前基于DiT的視頻試穿方法雖能生成連貫視頻，但在細(xì)粒度服裝動(dòng)態(tài)建模與背景時(shí)序一致性上仍存在明顯短板，且常因引入額外交互模塊導(dǎo)致計(jì)算開(kāi)銷激增。為此，團(tuán)隊(duì)創(chuàng)新性地提出"關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入"策略：利用關(guān)鍵幀天然包含前景動(dòng)態(tài)與背景一致性的特性，通過(guò)指令引導(dǎo)采樣篩選高信息量幀，并設(shè)計(jì)服裝細(xì)節(jié)增強(qiáng)（GDDE）與背景協(xié)同優(yōu)化（CBDO）雙模塊，將關(guān)鍵幀中的細(xì)粒度特征高效蒸餾至生成過(guò)程。該設(shè)計(jì)在不改動(dòng)DiT主干的前提下實(shí)現(xiàn)質(zhì)量躍升，兼具高效性與可擴(kuò)展性。

unsetunset方法概述unsetunset

CVPR 2026｜視頻虛擬試穿新 SOTA！KeyTailor 虛擬換衣告別假質(zhì)感，15K 高清數(shù)據(jù)集 ViT-HD 已經(jīng)開(kāi)源。 KeyTailor的總體框架。 KeyTailor 將參考服裝圖像 Iref、源視頻 Vin、其相應(yīng)的不可知視頻 Vagn、不可知掩模 Magn 和姿勢(shì)表示 P 作為輸入。這些輸入被編碼為與服裝相關(guān)的潛在變量 Lg，背景相關(guān)潛伏 Lbg、姿勢(shì)潛伏 Lp 和調(diào)整大小的蒙版 Lm。具體來(lái)說(shuō)，與服裝相關(guān)的潛在變量是由 GDDE 生成的模塊，CBDO 模塊的背景相關(guān)潛在變量，以及可訓(xùn)練的姿勢(shì)引導(dǎo)器的姿勢(shì)潛在變量。隨后，所有這些潛在信息與噪聲潛在信息一起被注入 N 個(gè) DiT 塊中，以生成最終的試戴視頻令牌，然后由基于 VAE 的解碼器進(jìn)行解碼視頻解碼器合成輸出視頻。

KeyTailor 核心思路很直接：關(guān)鍵幀里藏著前景動(dòng)態(tài)和背景一致性的全部信息，不用改 DiT 架構(gòu)，把關(guān)鍵幀信息高效注入即可。整體由三大核心模塊構(gòu)成，輕量、高效、效果強(qiáng)。

指令引導(dǎo)關(guān)鍵幀采樣（IKS）：精準(zhǔn)挑 “有用幀” 不隨機(jī)采樣，而是用視覺(jué)語(yǔ)言模型解析視角 / 動(dòng)作指令，生成標(biāo)準(zhǔn)姿態(tài)錨點(diǎn)；計(jì)算每幀與錨點(diǎn)的動(dòng)作差異、服裝占比，排序篩選出覆蓋多角度、多動(dòng)作、低冗余的關(guān)鍵幀，為后續(xù)細(xì)節(jié)提取打下基礎(chǔ)。
服裝細(xì)節(jié)增強(qiáng)（GDDE）：褶皺、紋理全還原先用單圖試穿模型把目標(biāo)服裝注入初始幀，再?gòu)年P(guān)鍵幀蒸餾動(dòng)態(tài)細(xì)節(jié)（褶皺、背面紋理、光影變化），強(qiáng)化服裝 latent，讓衣物貼合肢體、動(dòng)態(tài)自然、細(xì)節(jié)飽滿。
協(xié)同背景優(yōu)化（CBDO）：背景穩(wěn)、不跳變全局分支抓背景整體結(jié)構(gòu)，局部分支從關(guān)鍵幀補(bǔ)細(xì)節(jié)；加權(quán)融合后輸出穩(wěn)定、清晰、幀間一致的背景 latent，徹底解決背景閃爍、模糊問(wèn)題。
輕量融合：無(wú)縫適配 DiT 把增強(qiáng)服裝 latent、優(yōu)化背景 latent，和姿態(tài)、掩碼、噪聲 latent 高效融合，注入 DiT 的 LoRA 適配器。全程不改 DiT 主干、不增參、不拖慢速度，兼顧質(zhì)量與效率。

數(shù)據(jù)集介紹

團(tuán)隊(duì)同步發(fā)布大規(guī)模高清數(shù)據(jù)集 ViT-HD： 15,070 個(gè)高質(zhì)量視頻；分辨率 810×1080；覆蓋上裝、下裝、全身裝，場(chǎng)景豐富、主體清晰、曝光正常。高質(zhì)量數(shù)據(jù) + 強(qiáng)模型，從根源解決泛化不足問(wèn)題，讓虛擬試穿適配更多服裝與場(chǎng)景。

unsetunset實(shí)驗(yàn)結(jié)果unsetunset

在 VFID、SSIM、LPIPS 等核心指標(biāo)上，KeyTailor 顯著領(lǐng)先：

服裝細(xì)節(jié)：褶皺、紋理、動(dòng)態(tài)形變精準(zhǔn)還原，質(zhì)感真實(shí)；
背景一致性：無(wú)閃爍、無(wú)跳變、細(xì)節(jié)清晰；
效率：輕量設(shè)計(jì)，推理速度快、成本低；
泛化：復(fù)雜姿態(tài)、多樣服裝、不同場(chǎng)景均穩(wěn)定輸出高質(zhì)量結(jié)果。

unsetunset總結(jié)unsetunset

KeyTailor+ViT-HD，以關(guān)鍵幀驅(qū)動(dòng)細(xì)節(jié)注入為核心，用極簡(jiǎn)、輕量的方案，一次性解決虛擬試穿的細(xì)節(jié)、背景、效率、數(shù)據(jù)四大難題。作為 CVPR 2026 收錄的重磅成果，它將直接賦能電商虛擬試衣、短視頻穿搭創(chuàng)作、數(shù)字人服裝替換等場(chǎng)景，降低高清真實(shí)視頻生成門檻，推動(dòng) AIGC 在商業(yè)場(chǎng)景的深度落地。

0人收藏

相關(guān)文章

專題

CVPR 計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議

本專題其他文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章