• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    本文作者: 我在思考中 2022-10-28 10:01
    導語:?AI 翻譯進化速度這么快,實現地球村有望了。

    作者 | 李梅

    編輯 | 陳彩嫻

    機器翻譯是現今人類消除語言障礙、重建巴別塔的新工具。然而,在世界現存的 7000 多種已知語言中,許多低資源語言還未得到足夠的關注,尤其是有近一半的語言沒有標準的書面系統,這是構建機器翻譯工具的一大障礙,所以目前 AI 翻譯主要集中在書面語言上。

    在利用 AI 推動自然語言翻譯這件事上,Meta 一直致力于“No Language Left Behind”(沒有一種語言被落下)的目標。

    比如漢語方言之一閩南話,現在也有了專屬的機器翻譯系統,講閩南話的人可以與講英語的人進行無障礙對話了。

    這是由 Meta 開源的第一個由 AI 驅動的非書面的、語音到語音的翻譯系統。來聽聽這項工作的負責人、Meta AI 研究員 Peng-Jen Chen 與小扎的對話,Chen 出生于中國臺灣。

    視頻見:https://mp.weixin.qq.com/s/38dd-zUEtQkl2woo28wNjQ

    該系統可以將閩南話的語音翻譯成英語語音,反之亦可。會講閩南話的讀者可以來檢驗一下,是不是翻譯效果還挺不錯?

    據了解,這個開源翻譯系統是 Meta 的通用語音翻譯(UST) 項目的一部分,該項目致力于開發新的人工智能方法,幫助實現所有現存語言的實時語音到語音的翻譯。目前,Meta 已經開源了該翻譯模型和評估數據集,研究論文如下:

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!
    論文地址:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf



    1

    克服訓練數據的挑戰

    閩南話是漢語方言之一,是一種低資源語言,沒有標準的書寫系統,人工的英語到閩南話翻譯人員也相對很少,所以為模型收集和標注訓練數據就變得更加困難。

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    圖注:講閩南話(Hokkien)的人的數量

    為此,來自 Meta AI 的研究團隊采用了一種特殊放方案,利用漢語普通話(屬于高資源語言)作為中間語言來構建偽標簽和人工翻譯。他們首先將英語(或閩南話)語音翻譯成普通話文本,然后再翻譯成閩南話(或英語)并將其添加到訓練數據中。這種方法通過利用來自類似高資源語言的數據,極大地提高了模型性能。

    語音挖掘是訓練數據生成的另一種方法。使用預訓練的語音編碼器,能夠將閩南話語音嵌入編碼到與其他語言相同的語義空間中,所以閩南話沒有書面形式也不造成問題。閩南話語音可以與語義嵌入相似的英語語音和文本對齊,然后從文本中合成英語語音,產生并行的閩南話和英語語音。

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    圖注:無需人類標注的語音翻譯模型



    2

    新的建模方法:語音到語音

    許多語音翻譯系統都依賴轉錄或者是語音到文本的系統。但是,閩南話的形式主要是口語,缺乏標準的書面文字系統,無法轉錄成文本作。所以,Meta 所構建的是一個語音到語音的翻譯系統。

    研究人員使用語音到單元(speech-to-unit,S2UT)翻譯,將輸入語音直接翻譯成一系列的聲學單元,這也是 Meta 先前最早開創的一種路徑。然后,從這些聲學單元中生成波形。此外,研究人員還采用了 UnitY 作為雙通道解碼機制,第一通道解碼器生成相關語言(即漢語普通話)的文本,第二通道解碼器創建單元。

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    圖注:UnitY 模型架構



    3

    新的準確性評估系統

    語音翻譯系統的評估工具通常是 ASR-BLEU 指標,該指標首先使用自動語音識別 (ASR) 將翻譯后的語音轉錄為文本,然后將轉錄文本與人工翻譯的文本進行比較,計算 BLEU 分數。

    但要評估閩南話的語音翻譯系統,難處還是在于它沒有標準的書面文字系統。所以,為了實現自動評估,研究人員開發了一個系統,將閩南語語音轉錄為一種稱為 Tai-l? 的標準化注音符號。這樣就能在音節的層面上計算 BLEU 分數,從而比較不同方法的翻譯質量。

    除了開發這種評估閩-英語音翻譯的方法外,研究人員還基于閩南話語料庫 Taiwanese Across Taiwan,創建了第一個閩-英雙向語音到語音翻譯基準數據集。該基準數據集將開源,以方便更多研究人員從事閩南話語音翻譯工作。



    4

    不止閩南話

    這項工作所用技術可以進一步擴展到許多其他書面和非書面語言。

    為此,Meta 還發布了  SpeechMatrix,它是一個大型的語音到語音翻譯語料庫,使用了 Meta 的創新數據挖掘技術 LASER, 從歐洲議會錄音的真實演講中挖掘數據。該數據庫包含 136 種語言對的語音對齊,共 41.8 萬小時的語音。挖掘的數據和模型都是免費的,研究人員可以創建自己的語音到語音翻譯 (S2ST) 系統。

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    圖注:LASER 挖掘獲得的語音到語音成對數據

    Meta 在無監督語音識別 ( wav2vec-U ) 和無監督機器翻譯( mBART )方面的研究進展,也為口語翻譯工作提供了支持。比如用于預訓練語音模型的無監督域自適應技術,提高了下游無監督語音識別的性能,尤其是對于低資源語言,在沒有任何人工標注的情況下,可以構建高質量語音到語音翻譯模型。

    該模型仍在不斷推進中,目前一次只能翻譯一個完整的句子,但這邁出了未來實現語言間同聲傳譯的一步。

    據 Meta AI 的研究員 Peng-Jen Chen 說,這個閩南話翻譯系統其實有一部分是出于他的一個私人心愿。他在中國臺灣長大,同時會講普通話,但是他的父親普通話不好,他希望他的父親能夠用閩南話與每個人都順暢地交流。這也是 AI 之于人類的意義之一。

    參考鏈接:https://ai.facebook.com/blog/ai-translation-hokkien/

    更多內容,點擊下方關注:
    掃碼添加 AI 科技評論 微信號,投稿&進群:

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    雷峰網(公眾號:雷峰網)

    Meta 開源首個 AI 語音翻譯系統,閩南話和英語可以直接語音互譯!

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产精品无卡毛片视频| 国产999久久高清免费观看| 亚洲一区二区三区| 91亚洲国产成人久久精| 中文字幕在线日韩一区| 国产精品女在线观看| 亚洲中文字幕精品久久久久久动漫 | 亚洲成a人片在线播放观看国产| jizz国产| 精品无码国产污污污免费| 日韩av日韩av在线| 国产精品R级最新在线观看| 天天躁日日躁狠狠躁一区| 亚洲精品美女久久久久9999 | 精品久久久噜噜噜久久久| 久久66久6这里只有精品7| 国色天香中文字幕在线视频| 污污污污污污www网站免费| 三级国产在线三级视频| 亚洲av永久无码精品水牛影视| 69天堂人成无码免费视频| 婷婷综合色| 男女毛多水多亚洲| 久久精品国产亚洲成人| jizz日本版| 国产精品三级一区二区三区| 久9视频这里只有精品试看| 国产一区二区三区18| 亚洲AV无码不卡私人影院| 国产精品无码一区二区三区电影| 国产真人无遮挡免费视频| 亚洲狼人伊人免费视频| 亚洲精品无播放器在线看观看| 久久综合色一综合色88| 午夜av高清在线观看| 国产AV日韩AV| 一本本月无码-| 成人年鲁鲁在线观看视频| 日逼视频网站| 亚洲123| 好爽毛片一区二区三区四|