• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發(fā)私信給楊曉凡
    發(fā)送

    0

    ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

    本文作者: 楊曉凡 2019-01-16 10:05 專題:ICLR 2019
    導語:芝麻開花節(jié)節(jié)高

    ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

    雷鋒網 AI 科技評論按:近幾天,一篇 ICLR 2019 的拒稿引起了部分研究人員的注意。它不僅是一個能夠處理可變長度序列的模型,在多個任務中刷新了當前的最好性能,而且它還是 Transformer 模型的第三代升級。它的名字叫作「Transformer-XL」(加大號的 Transformer)。

    前兩代 Transformer

    2017 年 6 月,谷歌大腦在論文《Attention Is All You Need》中提出了一個完全基于注意力機制的編解碼器模型 Transformer ,它完全拋棄了之前其它模型引入注意力機制后仍然保留的循環(huán)與卷積結構,然后在任務表現(xiàn)、并行能力和易于訓練性方面都有大幅的提高。Transformer 從此也成為了機器翻譯和其它許多文本理解任務中的重要基準模型。

    2018 年 7 月,谷歌大腦在新論文《Universal Transformer》中對最初的 Transformer 進行了拓展,讓它具有通用計算能力(也就是「圖靈完備」)。他們使用了一種新型的、注重效率的時間并行循環(huán)結構,這樣的設計讓它不僅比 RNN 中使用的串行循環(huán)速度更快,也讓 Universal Transformer 比標準的前饋 Transformer 更加強大,在更多任務中取得了有力的結果。(雷鋒網 AI 科技評論詳細解析文章見 這里

    新的 Transformer

    谷歌大腦的第三代 Transformer 也在 2018 年下半年完成。他們首先投稿了 ICLR 2019,近期論文評審結果陸續(xù)揭曉后他們把論文上傳到了 arXiv。

    這篇論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(Transformer-XL: 超越固定長度內容之外的注意力語言模型, https://arxiv.org/abs/1901.02860, https://openreview.net/forum?id=HJePno0cYm)把注意力放在了拓展模型大小,以及給模型增加可變長度序列的處理能力上。論文由谷歌大腦、谷歌 AI 的研究人員和 CMU 教授、蘋果機器學習總監(jiān) Ruslan Salakhutdinov 和他的學生們共同完成。

    論文摘要如下:

    Transformer 網絡其實有潛力學習更長期的依賴關系,但是在目前的語言建模任務的環(huán)境設置之下,網絡的輸入被限制為固定長度的內容。為了發(fā)掘這種潛力,作者們提出了一種新的神經網絡架構,Transformer-XL,它可以讓 Transformer 網絡在長度不固定的內容中學習依賴,同時還不會干擾時空一致性。具體來說,Transformer-XL 由一個小節(jié)級別的循環(huán)機制和一個新設計的位置編碼器模式組成。這種方法不僅讓模型可以捕捉到長期的依賴,同時也可以解決內容分塊的問題。這樣的方法的效果是,Transformer-XL 學到的依賴要比 RNN 學到的長 80%,比最初的 Transformer 網絡長 450%,在長、短序列上都取得了更好了性能,而且在推理時最高也要比最初的 Transformer 網絡快超過 1800 倍。除此之外,作者們也刷新了多項任務中的最好成績,text8 數(shù)據(jù)集從 1.13 提升至 1.08,WikiText-103 上從 20.5 提升至18.3,One Billion Word 數(shù)據(jù)集上從 23.7 提升至 21.8,Penn Treebank 數(shù)據(jù)集上從 55.3 提升至 54.5(而且不需要精細調節(jié))。模型的代碼、預訓練模型、超參數(shù)都會同時提供 Tensorflow 和 PyTorch 版本。

    ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

    值得說明的是,和 RNN 網絡相比,Transformer 架構的網絡家族可以輕松地加大網絡規(guī)模,不僅更早的論文中 64 層的 Transfomer 擁有 2.35 億個參數(shù),這次 24 層的 Transformer-XL 更是達到了 2.77 億的參數(shù)規(guī)模(當然也取得了更好的表現(xiàn))。

    即便這篇論文投稿到 ICLR 2019 并被拒了(拒稿原因包括「創(chuàng)新點不多」、「無法證明性能提升來自于工程手段還是新的思路」、「應當包括來自機器翻譯任務的 ASR 表現(xiàn)」、「沒有進行更豐富多樣的實驗」等),包括 David Ha 在內的許多學者還是認為這是一篇優(yōu)秀的論文。David Ha 的評價是:它非常有用,在論文的補充材料中提供的代碼可以在語言建模之外的許多任務中發(fā)揮作用。

    感興趣的讀者可以詳細閱讀論文,并自己嘗試作者們提供的預訓練模型。

    論文地址:https://arxiv.org/abs/1901.02860

    代碼開源:https://github.com/kimiyoung/transformer-xl,包含 PyTorch 和 TensorFlow 的模型實現(xiàn),而且?guī)в蓄A訓練的模型

    雷鋒網 AI 科技評論報道

    雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

    ICLR 2019 遺珠?加大號「變形金剛」,Transformer-XL

    分享:
    相關文章

    讀論文為生

    日常笑點滴,學術死腦筋
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 欧美不卡无线在线一二三区观| 老妇肥熟凸凹丰满刺激| 色婷婷综合久色aⅴ五区最新| 亚洲 日本 欧洲 欧美 视频| 成人久久精品一区二区三区| 久久久亚洲综合久久久久87| 久久高潮少妇视频免费| 日韩伦理片| 中文无久久香码精品欧美日韩| 成人国产精品日本在线观看| 少妇人妻偷人精品视蜜桃| 极品白嫩少妇无套内谢| 国产精品无码久久久久AV | 国产亚洲精品一区二区不卡| 超级碰碰人妻中文字幕| 免费高清一区二区| 欧美疯狂性受xxxxx喷水| 超鹏98免费国语| 日本一区二区久久精品亚洲中文无| 午夜无码国产18禁| 日韩高清亚洲日韩精品一区二区 | 人妻丰满熟妇AV无码区免| 亚洲中文久久久久久精品国产| 亚洲欧洲日产国码无码久久99| 国产精品亚洲片在线观看麻豆| 国产精品视频一区二区噜噜| 国产肥臀视频一区二区三区| 亚洲国产精品久久久天堂麻豆宅男| 国产精品吹潮在线播放| 亚洲中文字幕日韩精品| 99热久久这里只有精品| 肏屄的视频| 日韩另类欧美日韩| 最新精品露脸国产在线| 国产成人8X人网站视频| 91亚洲色图| 福利一区二区三区av| 国产高清在线丝袜精品一区| 亚洲av永久无码精品天堂久久| 蜜桃?一区二区视频在线观看| 久久国产精品二国产人妻|