西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

本文作者：張莉

2018-07-09 17:25

專題：2018 CCF-GAIR 全球人工智能與機器人峰會

導語：在IoT時代，智能語音交互都有哪些新的挑戰？

雷鋒網按：2018 全球人工智能與機器人峰會（CCF-GAIR）在深圳召開，峰會由中國計算機學會（CCF）主辦，由雷鋒網、香港中文大學（深圳）承辦，得到了深圳市寶安區政府的大力指導，是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流盛會，旨在打造國內人工智能領域最具實力的跨界交流合作平臺。

第三天的IoT專場大咖云集，小米人工智能與云平臺副總裁崔寶秋登臺發表了關于小米IoT布局和AI戰略布局的報告，隨后，與小米在語音識別領域有深度合作的西北工業大學謝磊教授發表了主題為“迎接IoT時代智能語音的新挑戰”的精彩演講。

謝磊認為，現在是智能語音交互發展的黃金期，但語音人才嚴重匱乏，造成語音人才在市場上價格很高。同時，學校的科研雖然具有前瞻性，但缺少“大數據”和“大算力”，為此謝磊提出校企加強深度合作、產學研融合的倡議。

隨著IoT時代的到來，語音識別領域也迎來許多新的挑戰。例如，聲學場景從近講到遠講的切換，使語音交互的魯棒性帶來了前所未有的挑戰；語音標注要動用大量人工，費時費力, 一個新場景的模型訓練的代價很大；此外，口音和小語種識別也為基于少量數據的模型適應帶來了挑戰。

以下是謝磊教授在 CCF-GAIR 2018 上的大會報告內容，雷鋒網進行了不改變原意的編輯整理。

今天我演講的題目是“迎接IoT時代智能語音的新挑戰”，現在是智能語音黃金期，我們一定要做好校企合作和產學融合。同時由于IoT時代的到來，有很多挑戰仍然需要學術界來解決。最后，我會介紹我們近期跟小米合作的幾個成果。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

大家知道智能家庭或智能家居是物聯網的典型場景，在這個場景下各種各樣的設備都聯網了。以小米為例，我們要跟智能硬件交互，語音是非常重要且自然的入口——說一句話就可以達到目的。在萬物互聯、大數據的時代，小米有很多大數據。

而學校面臨的是在這樣大數據時代的背景下，如何做研究的問題。學校主要面向人才培養，瞄準前瞻性研究，但遺憾的是我們缺乏大數據和大算力。我們跟工業界相比，學校的再多的數據只能算是小數據。人家是西瓜，我們是芝麻。公司瞄準靠譜技術，最終目的以落地為主，把技術應用到產品中。只有企業才擁有真正意義上的大數據和大算力。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

在此大背景下，高校如何做研究，在我看來校企合作、產學融合，實現三贏（企業、學校和學生）是一種比較好的途徑。公司通過校企合作儲備人才，學生通過跟公司的合作和實習，鍛煉真實力，輕松找到好工作。對于學校來說，在缺乏大數據、大算力的現實情況下，借助企業界的能力，讓我們的技術得到更靠譜的驗證，論文最終得到實際價值的實現。我認為校企合作是非常有意義的一件事，我們從2010年開始至今，跟很多公司合作，包括跟小米這樣的巨頭。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

在IoT時代，智能場景有所切換。之前我們在手機上進行交互，手機語音是非常重要的入口。在IoT時代，另一個語音交互的場景出現了。以智能家庭為例，這種情況下給語音技術帶來了新挑戰。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

在IoT語音交互時代，我們遇到的問題是遠場語音識別，它的穩健性是非常重要的挑戰。從近講到遠講，聲學場景發生了各種各樣的變化，包括聲學回波、目標移動、房間混響、背景噪音、干擾聲源等。其他人同時說話的情況下會造成干擾，而且由于說話人的轉換，干擾源會發生變化。這些都會給語音識別帶來巨大的挑戰。后面會給大家介紹，我們如何利用深度學習技術來解決房間混響對語音識別造成影響的問題。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

另一個是缺少數據和計算資源的挑戰，我們稱之為低資源(low resource)的場景。

大家經常聽到行業里的人都說：人工智能是“有多少人工，就有多少智能?！蔽覀冃枰罅康臉俗祿瓿筛鞣N各樣的機器學習任務，包括語音識別在內。數據標注費時費力。能否進一步減少人工，能否減少模型訓練使用的標注數據，避免很多人工是個關鍵問題。

另一方面，在IoT時代，很多運算從云變到端，比如語音喚醒任務，但是端上的資源可能非常有限，要把模型打造得越小越好，計算越少越好，同時可能需要滿足低功耗的需求。后面我會介紹一個輕量級的語音喚醒方案。

口音也是一個問題，口音不是特別重的話，語音識別效果還是不錯的。如果口音比較重，語音識別效果會大打折扣。語種混雜也是一個問題，如果對著機器說“我今天買了一個Apple”，就很有可能識別錯。現有技術都是通過大量的數據覆蓋來解決這些問題，提升模型的魯棒性。

還有一個問題是小語種，如果小米要拓展國際化市場，有很多外語種需要做語音識別，但是我們可能沒有這么多標注數據，甚至一些語種缺乏語音語言學的專家知識，一開始連發音字典可能都沒有。在這些“低資源”的情況下，在現有模型的基礎上，基于少量數據做模型自適應，解決小語種沒有數據、沒有專家知識的語音交互也是一個值得探索的問題。后面我會介紹一個基于少量說話人數據進行模型自適應的工作，提升每個人語音識別的體驗。當然，這個方案可以擴展到小語種上。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

下面，我重點介紹一下我們為應對上面所提出的挑戰，近期跟小米合作的三個研究成果：一是用深度學習解決語音識別中的去混響問題；二是基于注意力機制的輕量級語音喚醒；三是打造個性化語音識別?；谌齻€工作的論文都被語音研究的旗艦會議Interspeech2018錄用。

第一，去混響。語音交互從進場變成遠場，房間混響成為一個影響語音識別性能的關鍵問題，我們嘗試用目前非常火熱的生成對抗網絡(GAN)解決去混響問題。在語音交互過程中，我的聲音除了直達聲到達對方的耳朵，還有各種各樣的反射面產生的反射，共同疊加傳到對方的耳朵中。聲音是由是直達聲、早期反射和晚期混響構成的。聲音的傳輸和傳播，從發聲聲源傳出來，會在房間駐留相當長的一段時間，從這張動圖上可以看出來，每一個小點都是一個聲音粒子?；祉憣φZ音識別性能有嚴重的影響。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

上圖是語譜圖，在干凈的情況下共振峰非常清晰，下圖是被混響污染的語譜，可以看到共振峰的嚴重拖尾現象，共振峰對語音識別非常重要，這種共振峰污染會嚴重影響語音識別準確率。在某中文測試集上可以看到，干凈情況下字錯誤率是7.86%，在有混響情況下字錯誤率提升到23.85%，即便用了多條件訓練(MCT)，即訓練數據里加入了一些帶混響的語音，錯誤率會降到16.02%，但和干凈語音情況下相比，依然有很大的差距。

今天我們嘗試用深度學習的方法解決去混響的問題。用深度學習去混響是一個非常直觀的解決方案。深度神經網絡的特點是具有多層的非線性學習能力，可以通過回歸任務，學習一個從帶混響的語音輸入到無混響干凈語音輸出之間的一個映射。我們可以通過干凈語音構造很多的混響語音數據，來訓練這樣一個映射網絡。

在用深度神經網絡去混響過程中，我們嘗試用生成對抗網絡來提升效果。生成對抗網絡一般由兩個網絡組成，一是生成器，二是判別器。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

以假幣制造者和警察之間的博弈這張圖來解釋生成對抗網絡最為直觀了。左邊是假幣仿冒者（即生成器），他要制造假幣；右邊是警察（即判別器），警察負責判斷真幣還是假幣。假幣仿冒者制造出來的假幣交給警察，警察根據自身的經驗做出假幣的判斷，把Loss傳回給假幣仿冒者，假幣仿冒者進而改良。經過多次迭代博弈的過程，假幣最終做得越來越真，可以騙過警察。

通過這樣的思路可以做去混響的問題。把混響語音通過生成器去混響，交給判別器判別這是干凈語音還是混響語音，通過類似上述的迭代博弈過程，訓練的生成器最終達到非常好的去混響效果。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

先前也有相關的工作，但是我們的做的更加細致。我們的結論是：首先，和其他網絡類型相比，生成器網絡用LSTM網絡效果最優，因為它本身有很強的時序建模能力，混響和時間非常相關。如果網絡層數比較深，則加入殘差網絡可以進一步提升效果。

此外在網絡訓練過程中，用同一個Mini-batch的數據去更新兩個網絡（G和D）對獲得良好的效果是至關重要的。在實驗數據集上語音識別表明，GAN能夠比單純DNN去混響獲得14-19%相對字錯誤率的下降。最終在MCT多條件訓練的場景下，進一步將字錯誤率從16%降到13%，大家感興趣可以關注我們的論文，獲得更多的細節。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

第二，喚醒萬物。以“小愛同學”為例，它現在已經無處不在，大家已經習慣了用“小愛同學”來喚醒小米手機和音箱。在喚醒任務上，我們要保證喚醒率非常高，同時要降低虛警率。我說了“小愛同學”，沒有喚醒屬于誤拒絕；我沒有說“小愛同學“，但是設備被喚醒了，這個屬于虛警。在語音喚醒任務上，我們的目的是把這個指標打造得越低越好。

同時很多時候我們在端上、器件上做喚醒，往往需要非常小的模型、很少的計算量，因為計算能力有限、存儲能力有限。我們嘗試用基于注意力機制端到端神經網絡來解決喚醒的問題。

這不是我們第一次使用基于注意力機制的模型來解決問題，之前我們跟小米合作，在小米電視語音搜索上達到非常高的準確率，也是因為用了這個模型，大家可以關注一下我們發表在ICASSP2018上的論文。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

這次我們將注意力機制用在喚醒任務中，也是非常直觀的想法。比如我們聽到別人叫我們的名字的時候，我們的“注意力”就轉換到這個人的講話上。注意力機制模型在機器翻譯、語音識別、語音合成中都已經成功應用。我們成功把它用在語音喚醒任務上。

它的好處有：一是去模塊化，一個網絡直接輸出喚醒判斷；二是模型參數少，同時無需其他喚醒方案中復雜的圖搜索，計算量進一步降低；三是模型訓練無需做對齊。運用基于注意力機制的語音喚醒模型，通過編碼器、注意力機制和Softmax的結合，可以直接判斷我說的是不是喚醒詞。

在“小愛同學”內部測試集上做了實驗驗證。對于編碼器，CRNN網絡比GRU和LSTM取得了更優的結果。最終在一小時一次虛警的條件下，我們的方案使得錯誤拒絕下降6次，同時計算量縮減4倍。

第三個工作是：我們嘗試“低資源”場景，只需少量數據為每個人打造個性化的語音識別模型，提升每個人的語音識別體驗。下圖可以看到這是某個測試集中的10個人做語音級別的錯誤率，我們可以看到雖然大家都是說普通話，語音識別性能非常的不均衡。錯誤率最低可以達到100字錯3個，很差的情況可以看到錯誤率高達40%甚至56%。

這些高錯誤率情況往往是由于口音問題造成的。我國不同的地域有不同的方言和口音。現有通用的語音識別聲學模型，往往是通過不同口音人群數據的覆蓋，來緩解這一問題。但是終究是一個“平均模型”，不可能在每個人身上獲取到最佳的語音識別性能。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

我們對比研究了幾種不同的說話人自適應的方法。神經網絡非常靈活，可以做很多工作，對網絡進行不同的“手術”，通過對平均模型方案的改造，達到適配不同人的自適應能力。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

第一種方法是LIN，在傳統語音級別大網絡聲學模型前提下可以加一個線性變換網絡，把不同人的語音輸入變成某種通用特征，原始大網絡參數不做任何變化。即一人一個線性變換網絡，這個小網絡可以放在每個人的手機上。

第二種方法是LHUC，為每個人學習一組個性化參數，用于調節大網絡聲學模型參數的幅度。

第三種方法是俞棟老師論文中的做法，用每個人的數據去直接更新大網絡聲學模型參數，即一人一個網絡。為了避免過擬合問題，我們采用KLD準則在模型自適應過程中來做一個約束，使得適應后的模型的后驗概率分布與說話人無關的大網絡模型上的后驗分布越接近越好。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

我們選擇了10位帶湖北口音的普通話發音人，每個人用5-300句做模型自適應，100句做測試。上圖明顯的看到，不管使用上述什么方法，語音識別錯誤率都有穩定的下降。整體而言，我們發現KLD方法最優，LHUC此之，LIN比較差。

我們工作的另外一個特色是對口音程度進行了分類來觀察不同方法的表現。我們根據剛才那10個測試人在通用模型上的語音識別錯誤率，對他們進行了口音程度劃分，分為了輕度口音、中度口音和重口音，來觀察不同方法在這三類人群上的語音識別性能表現。

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

我們發現，在輕度口音上，LHUC的效果最好，其他兩種方法表現的不穩定，時好時壞。這是因為輕度口音和通用模型之間的差距不是特別明顯，在訓練通用模型的時候其實就引入了一些帶口音數據。這種情況下，如果用其他方法來”大幅度”調整網絡會造成負面的影響。LHUC這種比較“微弱”的調整參數方法反而效果最好。

在重度口音上，KLD和LHUC效果相當，可以達到可比的效果。如果存儲或內內存占用是一個需要考慮的因素的話，大家可以選擇較為簡潔的LHUC方法，它不會為每個人建一個神經網絡，而是為每個人存儲一小組調節大網絡的參數。

對于重度口音，目標發音人和通用模型之間有非常大的差距，因此直接使用目標發音人的數據來調整通用模型參數，得到適配目標發音人的模型，效果是最好的。因此，模型重訓練RSI和KLD可以達到這種目的，而KLD效果更佳，即圖上黑色線穩定在下面，錯誤率最低。

在我報告的最后，給大家展示一下我們最新的用深度學習進行語音降噪的最新結果。

我們知道語音降噪和語音增強是研究歷史非常長的研究課題，通常采用信號處理的方法解決。手機上也有各種降噪方案和降噪算法。傳統統計信號處理的方法優勢是從信號統計特性出發解決問題，對平穩噪聲有較好的抑制能力。但是對于非平穩類型的噪聲——比如在嘈雜的酒吧中有很多不平穩的噪聲——的表現無法達到理想效果。

我們將深度學習應用于語音增強，同時結合信號處理的知識，聯合做降噪。這是我們在嘈雜的酒吧錄了一段對手機講話的音頻，用深度學習加信號處理的方法進行降噪。大家也聽到了，嘈雜的背景噪聲基本被抹掉，這是深度學習賦能語音降噪達到的新水平。（演講全文完）

西北工業大學教授謝磊：IoT時代，智能語音面臨許多新的挑戰 | CCF-GAIR 2018

會后，當雷鋒網問到現在智能音箱在復雜任務執行上存在很多問題，是否存在技術不成熟就立刻推向市場的情況，謝磊的回答是：

智能音箱是一個重要的入口，IoT的入口和流量的入口。

這就是為什么大家都在布局做音箱，市場上出現了“百箱爭鳴”的局面，其實大家都在布局新的“流量經濟”和搶奪入口。

就技術而言，智能音箱可能是一家公司技術“綜合實力”的體現，最適合練兵，因為上面用到的技術有很多，例如麥克風陣列技術、語音增強技術、遠場語音識別技術、語音理解與對話技術、知識庫、語音合成等，還有是否有輸出內容的實力。每項技術都是一項重要的研究課題，都需要打磨和優化。但是對用戶來說，只是感覺到交互體驗要好，需要的內容要有。

技術發展都是有一個階段的，現階段達到的能力，其實已經可以做到包括智能音箱在內的各種各樣的智能硬件里面去了，也就是達到了“可用”的階段，但是距離“好用”還是需要一定的技術發展。

在基于智能音箱的遠場語音交互上，語音識別的準確率仍需要進一步提高，這個就需要前端方案的配合，以及前后端的聯合優化。

語音合成也需要更加自然與個性化，每個人對聲音的需求是不一樣的。此外，就深度理解用戶而言，這需要語義理解和對話技術的進一步突破。本來語義理解就有很多歧義。比如說想穿多少穿多少，這句話其實跟語境有關系，在冬天的時候，你特別冷的情況下你是希望穿得特別多，但是到夏天的時候你想穿多少穿多少，就是說，我熱的實在是脫得不能再脫了。所以，這個實際上跟語境也是有關系的，所以語義理解很難。

口語交互就更難了，比如咱們在聊天的過程中，講的話可能是語速很快、吞音少字問題、語序顛倒、都不是按規則出牌的。說話的時候我語序顛倒了你也能聽懂，中間插了很多的東西你也能夠聽懂，但是機器理解的時候就可能是一個大問題。所以，這一塊還是要通過各種各樣的技術突破和各個模塊的聯合優化去解決。

不過我相信，語音的入口作用是毋庸質疑的，這也是為什么各家都在布局的原因。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

專題

2018 CCF-GAIR 全球人工智能與機器人峰會

本專題其他文章

張莉

主筆

本人微信：15010591263

發私信

當月熱門文章