• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    本文作者: 我在思考中 2021-09-02 10:32
    導語:本文是對發表于計算機視覺領域的頂級會議 ICCV 2021的論文“FACIAL: 具有隱式屬性學習的動態談話人臉視頻生成”的解讀。

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    作者 | 張晨旭

    編輯 | 王曄

    本文是對發表于計算機視覺領域的頂級會議 ICCV 2021的論文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning(具有隱式屬性學習的動態談話人臉視頻生成)”的解讀。

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    論文鏈接:https://arxiv.org/pdf/2108.07938.pdf

    視頻簡介:https://m.youtube.com/watch?v=hl9ek3bUV1E

    作者:張晨旭(德克薩斯大學達拉斯分校);趙一凡(北京航空航天大學);黃毅飛(華東師范大學);曾鳴(廈門大學);倪賽鳳(三星美國研究院);Madhukar Budagavi(三星美國研究院);郭小虎(德克薩斯大學達拉斯分校)。


    1

    研究背景

    音頻驅動的動態人臉談話視頻生成已成為計算機視覺、計算機圖形學和虛擬現實中的一項重要技術。然而這一過程中,生成逼真的人臉視頻仍然非常具有挑戰性,這不僅要求生成的視頻包含與音頻同步的唇部運動,同時個性化、自然的頭部運動和眨眼等屬性也是十分重要的。動態談話人臉合成所蘊含的信息大致可以分為兩個不同的層次:

    1)需要與輸入音頻同步的屬性,例如,與聽覺語音信號有強相關性的唇部運動;

    2)與語音信號具有較弱相關性的屬性,即與語音上下文相關、與個性化談話風格相關的其他屬性(頭部運動和眨眼)。

    歸納總結上述兩種不同類型的屬性,我們稱第一類屬性為顯式屬性,第二類為隱式屬性

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成
    圖 1 三種典型的音頻引導的談話人臉合成方法。
    a)圖像輸入作為指導,不生成隱式屬性,
    b)視頻輸入作為指導,隱式屬性是從原視頻中復制得到,
    c)本方法內容:以視頻輸入為指導,同時生成隱式和顯式特征。

    如圖1所示,大多數現有生成方法只關注于人臉的顯式屬性生成,即通過輸入語音,合成同步的唇部運動屬性。這些方法合成的人臉結果要么不具有隱式屬性[1,2](圖1中a所示),要么復制原始視頻的隱式屬性[3,4](圖1中b所示)。只有少部分工作[5,6]探索過頭部姿勢與輸入音頻之間的相關性。

    盡管這些工作針對生成屬性進行了不同側面的探究,但是對這些屬性的具體研究,仍存在以下問題:(1)顯式和隱式屬性如何潛在地相互影響?(2) 如何對隱式屬性進行建模?例如頭部姿勢和眨眼等屬性不僅取決于語音信號,還取決于語音信號的上下文特征以及與個體相關的風格特征。


    2

    方法介紹
    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    圖 2 音頻驅動的隱式-顯式屬性聯合學習的談話人臉視頻合成框架。

    如圖2所示,我們提出了一個人臉隱式屬性學習(FACIAL)框架來合成動態的談話人臉視頻

    (1)我們的 FACIAL 框架使用對抗學習網絡聯合學習這一過程中的隱式和顯式屬性。我們提出以協作的方式嵌入所有屬性,包括眨眼信息、頭部姿勢、表情、個體身份信息、紋理和光照信息,以便可以在同一框架下對它們用于生成說話人臉的潛在交互進行建模。

    (2) 我們在這個框架中設計了一個特殊的 FACIAL-GAN網絡來共同學習語音、上下文和個性化信息。這一網絡將一系列連續幀作為分組輸入并生成上下文隱空間向量,該向量與每個幀的語音信息一起由單獨的基于幀的生成器進一步編碼。因此,我們的 FACIAL-GAN 可以很好地捕獲隱式屬性(例如頭部姿勢等)、上下文和個性化信息。

    (3) 我們的 FACIAL-GAN 還可以預測眨眼信息,這些信息被進一步嵌入到最終渲染模塊的眼部相關的注意力圖中,用于在輸出視頻合成逼真的眼部運動信息。實驗結果和用戶研究表明,我們的方法可以生成逼真的談話人臉視頻,該生成視頻不僅具有同步的唇部運動,而且具有自然的頭部運動和眨眼信息。并且其視頻質量明顯優于現有先進方法。

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    圖 3 本方法提出的FACIAL-GAN網絡結構框架

    如圖3所示,FACIAL-GAN 由三個基本部分組成:時間相關生成器用于構建上下文關系和局部語音生成器用于提取每一幀特征。此外,使用判別器網絡來判斷生成的屬性的真假。(具體的網絡細節請參考原文內容)


    3

    實驗結果分析
    • 定性比較實驗

    圖 4 與現有音頻驅動的人臉視頻生成方法的定性比較結果

    如圖4,圖5,圖6所示,我們與現有音頻驅動的人臉視頻生成方法進行比較。相比之下,通過顯式和隱式屬性的協同學習,我們的方法生成具有個性化的頭部運動,考慮到不同個體的運動特性,同時可以生成更加逼真眨眼信息的人臉視頻。(詳細的比較結果請參考上述的視頻鏈接)

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    圖 5 與 Vougioukas,Chen等方法的定性對比

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    圖 6 與 Suwajanakorn,Thies等方法的定性對比

    • 定量比較實驗

    我們同時通過定量化分析實驗,如關鍵點運動偏移,視聽同步置信度進行衡量,具體信息如表1所示。本文所提出的聯合隱式和顯式屬性生成框架,超越了大多數現有方法,在各項屬性生成任務中,均具有較優的解析質量。

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    如表2所示,我們通過進行主觀的用戶研究(User Study),即從人類觀察的角度比較生成的結果,其中更大的數值代表更優的生成質量和用戶認可度。

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成


    4

    結語

    在這項工作中,除傳統的唇部運動等顯式屬性之外,我們以自然頭部姿勢和眨眼信息等隱式屬性作為學習目標,優化談話人臉視頻的生成質量和真實度。但需要注意的是,人臉談話視頻仍然具有其他更細節的隱式屬性,例如,眼球運動、身體和手勢、微表情等等。這些屬性可能受其他更深層次維度信息的引導,可能需要其他網絡組件的特定設計,仍有待于未來進一步探究。我們希望本文提出的FACIAL 框架可以為未來探索隱式屬性學習提供一種新穎的研究思路和啟發。

    參考文獻
    [1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.
    [2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.
    [3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.
    [4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nie?ner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.
    [5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.
    [6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

    雷鋒網雷鋒網雷鋒網

    雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

    ICCV 2021 | FACIAL:具有隱式屬性學習的動態談話人臉視頻生成

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产精品亚洲日韩AⅤ在线观看| 国产丝袜打飞机免费在线| 精品一区二区推荐| 人妻少妇精品无码专区二区| 色色资源网| 蜜臀精品国产高清在线观看| 欧美xxxx视频免费观看| 亚洲人成网亚洲欧洲无码久久| 亚洲大尺度一区二区三区| 国模gogo啪啪中国人体| 日韩精品一卡| 欧美亚洲国产精品第一页| 搡老熟女老女人一区二区| 91国产自拍一区二区三区| 超碰免费在线观看| 天天伊人久久| 日本道不卡| 无码专区人妻系列日韩视频| 一个人看的www免费高清视频| 性男女做视频观看网站| 很很鲁很很很鲁在线视频播放| 亚洲成人精品免费| 亚洲精品v欧美精品动漫精品| 午夜福利片1000无码免费| 国产av午夜精品福利| 久久国产精品久久精品国产| 日本xxxx色视频在线观看| 久久999精品国产只有精品| 国产成人精品久久综合| 91精品亚洲一区二区三区| 国产V∧在线视频| 97资源人妻| 亚洲综合色在线观看一区二区| 九九九国产精品成人免费视频| 色狠狠色婷婷丁香五月| 少妇人妻偷人精品无码视频新浪 | 国产盗摄XXXX视频XXXX| 国产精品毛片无遮挡高清| 精品一区二区三区四区色| 福利一区二区在线视频| 精品一区二区成人精品|