Google推出Tacotron 2：結合WaveNet，深度神經網絡 TTS 媲美專業級別

本文作者：岑大師

2017-12-20 13:17

導語：10月Deepmind宣布對WaveNet升級后，Google Brain近日宣布推出 Tacotron 2，兩個團隊的暗中較勁仍在繼續。

雷鋒網按：今年3月，Google 提出了一種新的端到端的語音合成系統：Tacotron。該系統可以接收字符輸入并輸出相應的原始頻譜圖，然后將其提供給 Griffin-Lim 重建算法直接生成語音。該論文認為這一新思路相比去年 DeepMind 的 WaveNet 具有架構上的優勢。10 月，Deepmind發布博客稱，其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中（參見雷鋒網文章：《Deepmind語音生成模型WaveNet正式商用：效率提高1000倍》），而就在今天，Google Brain 團隊發布博客，宣布推出 Tacotron 2，Google Brain 與 DeepMind 的暗中較勁仍在繼續。

以下是 Google 博客的相關內容，讓我們來看看此次 Tacotron 2 的更新情況：

從文本（文本到語音，TTS）生成非常自然的探測語音已經成為過去數十年的研究目標。在近幾年中，TTS研究取得了很大的進展，TTS系統有許多獨立的模塊都有了很大的改進。結合在 Tacotron 和 WaveNet 等過去研究思路，我們增加了更多改進，最終實現了我們的新系統 Tacotron 2 。我們的方法不使用復雜的語言和聲學特性作為輸入，相反，我們僅使用語音示例和相應的文本記錄進行訓練的神經網絡，來從文本生成類似人類的語音。

Google推出Tacotron 2：結合WaveNet，深度神經網絡 TTS 媲美專業級別

對于這一新系統的完整描述可以在我們的論文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”（通過調節 WaveNet 對 Mel 譜圖預測的自然 TTS 合成）中找到。簡而言之，其工作原理是這樣的：我們使用針對 TTS 優化的序列到序列模型來映射序列字母到編碼音頻的一系列功能。這些功能是一個 80 維音頻頻譜圖，每 12.5 毫秒計算一次幀，不僅可以捕捉單詞的發音，還可以捕捉人類語音的各種微妙之處，包括音量，速度和語調。最后，這些功能使用類似 WaveNet 的架構轉換為 24 kHz 波形。

Google推出Tacotron 2：結合WaveNet，深度神經網絡 TTS 媲美專業級別

(圖為 Tacotron 2 的詳細模型架構。圖像的下半部分描述了將字母序列映射到光譜圖的序列到序列模型。更多技術細節請參閱相關論文。)

您可以點擊這里聽一些 Tacotron 2 生成的音頻樣本。在一個評估中，我們要求聽眾對生成的語音的自然度進行評分，并獲得了與專業錄音相媲美的評分。

雖然我們的樣本聽起來不錯，但仍然有一些棘手的問題需要解決。例如，我們的系統在復雜的單詞（例如“decorum”和“merlot”）的發音上有困難，在極端的情況下甚至會隨機產生奇怪的噪音。另外，我們的系統還不能實時生成音頻。而且，我們還不能控制生成的語音，比如引導它聽起來高興或悲傷。這些都是一個有趣的研究問題。

Tacotron VS WaveNet

WaveNet 是一種用于生成原始音頻波形的深層神經網絡模型，由 Deepmind 于2016年提出。在 TTS 語音合成系統中，主流的做法是拼接 TTS （由單個配音演員的高質量錄音大數據庫，通常有數個小時的數據。這些錄音被分割成小塊，然后可以將其進行組合以形成完整的話語），而WaveNet采取完全不同的方法。在原始論文中，我們描述了一個深層的生成模型，可以以每秒處理16000個樣本、每次處理一個樣本黨的方式構建單個波形，實現各個聲音之間的無縫轉換。

Google推出Tacotron 2：結合WaveNet，深度神經網絡 TTS 媲美專業級別

上圖動畫展示了 WaveNet 的結構。它由卷積神經網絡構建，在訓練階段，網絡確定了語音的底層結構，比如哪些音調相互依存，什么樣的波形是真實的以及哪些波形是不自然的。訓練好的網絡每次合成一個樣本，每個生成的樣本都考慮前一個樣本的屬性，所產生的聲音包含自然語調和如嘴唇形態等參數。它的“口音”取決于它接受訓練時的聲音口音，而且可以從混合數據集中創建任何獨特聲音。與TTS系統一樣，WaveNet使用文本輸入來告訴它應該產生哪些字以響應查詢。另外，為了使用 WaveNet 將文本轉化為語音，需要識別文本中是什么。

Tacotron由 Google Brain 團隊的 Yuxuan Wang （王雨軒）等人提出。在第一代 Tacotron 的相關論文中指出，WaveNet 對 TTS 效果良好，但由于樣本集的自回歸屬性（sample-level autoregressive nature），其生成語音的處理速度較慢；同時，由于 WaveNet 還需要對現有 TTS 前端語言特征進行調節，因此也不是端到端的。

Google推出Tacotron 2：結合WaveNet，深度神經網絡 TTS 媲美專業級別

（上圖為Tacotron最初論文中的模型架構）

在今年3月提出的模型中，Tacotron 模型取得了 3.82 的平均意見得分（滿分5）。而在最近的評估中，Tacotron 2 模型平均意見得分為 4.53，專業錄音平均意見得分為 4.58。

雷鋒網發現，WaveNet 大幅提高了效率后，此前的“處理速度慢”的問題已經得到解決，但仍然不是端到端。而在新的 Tacotron 模型架構中也看到，主要改進在于輸出端增加了 WaveNet MoL，這樣可以將 WaveNet 和 Tacotron 的優點各自結合起來，二者的“強強聯合”有望促進類似語音識別一樣的進步，實現語音合成的新臺階。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

10人收藏

岑大師

發私信

當月熱門文章