• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給彭鵬
    發送

    0

    百度發布Deep Speaker:大規模聲紋識別的端對端系統

    本文作者: 彭鵬 編輯:郭奕欣 2017-05-11 17:53
    導語:日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統的i-vector方法在識別準確率上獲得了顯著的提高。

    雷鋒網按:此前雷鋒網曾經報道過百度在語音技術上的進展。日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統的i-vector方法在識別準確率上獲得了顯著的提高。

    聲紋識別算法尋求從音頻中識別說話者的身份。兩個常見的識別任務是確認(說話者是不是他宣稱的那個人)和說話者身份識別(在一群未知的說話者中確認聲音的來源)。

    該項技術已經有了各種應用。例如,聲紋可以用來登錄設備。說話者確認也可以作為金融交易的額外安全措施。此外,類似于智能家居助手之類的共享設備也可以利用這項技術來提供個性化的服務。

    最近使用神經網絡來進行聲紋識別的論文已經改進了傳統的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認為說話內容可以被分為兩個部分,一個部分依賴于說話者和信道可變性,另一個部分依賴于其它的相關因素。i-vector聲紋識別是一個多步過程,其涉及到使用不同說話者的數據來估計一個通用的背景模型(通常是高斯混合模型),收集充分的統計數據,提取i-vector,最后使用一個分類器來進行識別任務。

     一些論文用神經網絡代替了i-vector流水線的方法。其它研究者要么訓練了一個文本相關(使用者必須說同樣的話)的端對端語者識別系統,要么訓練了文本獨立(這個模型與說話內容不相關)的端對端語者識別系統。我們介紹Deep Speaker:一個端對端的神經聲紋識別系統,它在文本相關和文本獨立的場景下都取得了良好的效果。這意味這個系統可以被訓練來識別誰在說話,無論是當你對你的家庭助手說“wake”或者你在會議中發言。

    Deep Speaker由深度神經網絡層組成,從音頻中提取特征,基于余弦相似性的時間池和三元組損失(triplet loss)。百度美研院探究了ResNet激活的卷積模型和現有模型在提取聲學特征上的效果。

    百度發布Deep Speaker:大規模聲紋識別的端對端系統

    說明:在這里百度美研院使用了人臉識別中采用的三元組損失。在訓練過程中,他們選擇了一個說話者的話語,然后計算一個嵌入(標記為“Anchor”)。再產生兩個嵌入,一個來自相同的演講者(標記為“Positive”),一個來自于不同的演講者(標記為“Negative”)。在訓練過程中,其目標是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。

    百度美研院展示了Deep Speaker在三個不同數據集上的有效性,包括文本相關和文本獨立的任務。其中之一的UIDs數據集包括大約250000名說話者,是知識文獻中最大的數據集。實驗結果表明:Deep Speaker要明顯優于基于DNN 的i-vector方法。例如,在一個文本獨立的數據集中隨機挑選出100個演講者,Deep Speaker在說話者身份確認任務上的錯誤率是1.83%,正確率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的錯誤率,提高了60%的正確率。

    百度發布Deep Speaker:大規模聲紋識別的端對端系統

    說明:在實驗中百度美研院所使用的數據集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通話數據集,Mturk是英語數據集。UIDs和Mturk是文本獨立的數據集,XiaoDu是文本相關的數據集,其基于百度的喚醒字(wake word)。為了在不同大小的訓練集上做實驗,他們用了全部的UIDs數據集(250,000)和它的一個子集(50,000)。在評估階段,他們選擇了一個Anchor,然后再從測試部分隨機地選擇1個Anchor positive樣本和99個Anchor negatives樣本。

    團隊還發現Deep Speaker學習到了與語言無關的特征。當在普通話語境下訓練時,Deep Speaker卻能在英文確認和識別的任務上達到5.57%的錯誤率和88%的正確率。此外,先用普通話再用英文訓練可相比于只用英文訓練,提高了英文識別的準確率。這些結果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學習到了跨語言的聲音特征。這些結果與Deep Speech 2的結果類似,同樣的架構都可以用來辨認不同語言的聲紋識別。

    關于Deep Speaker模型的更多細節,訓練技巧和實驗結果都可以在論文中找到。

    論文地址:https://arxiv.org/abs/1705.02304

    via research.baidu,雷鋒網翻譯

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 中国一级做a爰片久久毛片| 国产999精品成人网站| 精品久久中文字幕五十路人妻| 久久久久久久久18禁秘| 欧美高清一区三区在线专区| 成人网站免费观看永久视频下载| 成人黄网站免费永久在线观看| 好吊视频一区二区三区人妖| 久久精品国产久精国产果冻传媒| 亚洲男人天堂成人网| 精品剧情v国产在免费线观看| 亚洲自拍成人| 成人啪啪高潮不断观看| 亚aⅴ天堂| 亚洲熟女一区二区在线看-日韩美一区二区三区-成人AV | 国产首页一区二区不卡| 日韩丨亚洲丨制服|痴汉| 久久久久亚洲精品成人网小说| 少妇下面被精子填满视频| 亚洲综合精品一区二区三区| 国产在线啪| 国产熟妇婬乱A片免费看牛牛| 姚安县| 国产精品成人免费视频一区| 午夜福利国产区在线观看| 在线无码| 亚州成人AⅤ| 久碰久摸久看视频在线观看| 久操资源站| 女人腿张开让男人桶爽| 亚洲色偷拍区另类无码专区| av狼友| 国产亚洲欧美日韩综合综合二区| 亚洲免费一区二区av| 69视频免费在线观看| 91网站在线看| 国产偷窥熟女精品视频| 亚洲欧美综合精品二区| 一区二区三区不卡国产| 狠狠躁天天躁中文字幕| 国产精品午夜福利资源|