• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給岑大師
    發送

    0

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    本文作者: 岑大師 2017-12-20 13:17
    導語:10月Deepmind宣布對WaveNet升級后,Google Brain近日宣布推出 Tacotron 2,兩個團隊的暗中較勁仍在繼續。

    雷鋒網按:今年3月,Google 提出了一種新的端到端的語音合成系統:Tacotron。該系統可以接收字符輸入并輸出相應的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語音。該論文認為這一新思路相比去年 DeepMind 的 WaveNet 具有架構上的優勢。10 月,Deepmind發布博客稱,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(參見雷鋒網文章:《Deepmind語音生成模型WaveNet正式商用:效率提高1000倍》),而就在今天,Google Brain 團隊發布博客,宣布推出 Tacotron 2,Google Brain 與 DeepMind 的暗中較勁仍在繼續。

    以下是 Google 博客的相關內容,讓我們來看看此次 Tacotron 2 的更新情況:

    從文本(文本到語音,TTS)生成非常自然的探測語音已經成為過去數十年的研究目標。在近幾年中,TTS研究取得了很大的進展,TTS系統有許多獨立的模塊都有了很大的改進。結合在 Tacotron 和 WaveNet 等過去研究思路,我們增加了更多改進,最終實現了我們的新系統 Tacotron 2 。我們的方法不使用復雜的語言和聲學特性作為輸入,相反,我們僅使用語音示例和相應的文本記錄進行訓練的神經網絡,來從文本生成類似人類的語音。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    對于這一新系統的完整描述可以在我們的論文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通過調節 WaveNet 對 Mel 譜圖預測的自然 TTS 合成)中找到。簡而言之,其工作原理是這樣的:我們使用針對 TTS 優化的序列到序列模型來映射序列字母到編碼音頻的一系列功能。這些功能是一個 80 維音頻頻譜圖,每 12.5 毫秒計算一次幀,不僅可以捕捉單詞的發音,還可以捕捉人類語音的各種微妙之處,包括音量,速度和語調。最后,這些功能使用類似 WaveNet 的架構轉換為 24 kHz 波形。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    (圖為 Tacotron 2 的詳細模型架構。圖像的下半部分描述了將字母序列映射到光譜圖的序列到序列模型。更多技術細節請參閱相關論文。)

    您可以點擊這里聽一些 Tacotron 2 生成的音頻樣本。在一個評估中,我們要求聽眾對生成的語音的自然度進行評分,并獲得了與專業錄音相媲美的評分。

    雖然我們的樣本聽起來不錯,但仍然有一些棘手的問題需要解決。例如,我們的系統在復雜的單詞(例如“decorum”和“merlot”)的發音上有困難,在極端的情況下甚至會隨機產生奇怪的噪音。另外,我們的系統還不能實時生成音頻。而且,我們還不能控制生成的語音,比如引導它聽起來高興或悲傷。這些都是一個有趣的研究問題。

    Tacotron VS WaveNet

    WaveNet 是一種用于生成原始音頻波形的深層神經網絡模型,由 Deepmind 于2016年提出。在 TTS 語音合成系統中,主流的做法是拼接 TTS (由單個配音演員的高質量錄音大數據庫,通常有數個小時的數據。這些錄音被分割成小塊,然后可以將其進行組合以形成完整的話語) ,而WaveNet采取完全不同的方法。在原始論文中,我們描述了一個深層的生成模型,可以以每秒處理16000個樣本、每次處理一個樣本黨的方式構建單個波形,實現各個聲音之間的無縫轉換。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別    

    上圖動畫展示了 WaveNet 的結構。它由卷積神經網絡構建,在訓練階段,網絡確定了語音的底層結構,比如哪些音調相互依存,什么樣的波形是真實的以及哪些波形是不自然的。訓練好的網絡每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,所產生的聲音包含自然語調和如嘴唇形態等參數。它的“口音”取決于它接受訓練時的聲音口音,而且可以從混合數據集中創建任何獨特聲音。與TTS系統一樣,WaveNet使用文本輸入來告訴它應該產生哪些字以響應查詢。另外,為了使用 WaveNet 將文本轉化為語音,需要識別文本中是什么。

    Tacotron由 Google Brain 團隊的 Yuxuan Wang (王雨軒)等人提出。在第一代 Tacotron 的相關論文中指出,WaveNet 對 TTS 效果良好,但由于樣本集的自回歸屬性(sample-level autoregressive nature),其生成語音的處理速度較慢;同時,由于 WaveNet 還需要對現有 TTS 前端語言特征進行調節,因此也不是端到端的。

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    (上圖為Tacotron最初論文中的模型架構)

    在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意見得分(滿分5) 。而在最近的評估中,Tacotron 2 模型平均意見得分為 4.53,專業錄音平均意見得分為 4.58。

    雷鋒網發現,WaveNet 大幅提高了效率后,此前的“處理速度慢”的問題已經得到解決,但仍然不是端到端。而在新的 Tacotron 模型架構中也看到,主要改進在于輸出端增加了 WaveNet MoL,這樣可以將 WaveNet 和 Tacotron 的優點各自結合起來,二者的“強強聯合”有望促進類似語音識別一樣的進步,實現語音合成的新臺階。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    Google推出Tacotron 2:結合WaveNet,深度神經網絡 TTS 媲美專業級別

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 欧美人与动zozo| 亚洲激情婷婷| 久久成人国产精品免费软件| 香蕉久久夜色国产精品| 久福利| 午夜福利精品国产二区| 99麻豆久久精品一区二区| 国产无码AV| 亚洲免费a级av| 国产毛片三区二区一区| 丰满的少妇被猛烈进入白浆| 男女扒开双腿猛进入爽爽免费看| 成人国产精品日本在线观看| 国产爆乳成AV人在线播放| 中文字幕成熟丰满人妻| 老熟妇老熟女老女人天堂| 色窝视频| 999国产精品999久久久久久| 谁有在线观看av中文| A级毛片高清免费视频播放出要看| 国产办公室秘书无码精品99| 亚洲 欧美 唯美 国产 伦 综合| 一区二区三区自拍| 国产精品久久中文字幕| 老司机午夜精品视频无码| 亚洲香蕉免费有线视频| 亚洲精品mv免费网站| 在线观看AV热码| 日韩中文在线观看| 色综合精品| 亚洲国产成人va在线观看天堂| 日韩亚洲欧美一区二区三区| 成人神马九九| 老司机精品视频在线| 国产对白老熟女正在播放| 亚洲色偷偷| 国产亚洲精品??码| 久久精品不卡一区二区| 1区2区3区高清视频| 日韩中文字幕一区二区不卡| 久久无码av一区二区三区电影网|