• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    本文作者: 我在思考中 2022-03-28 10:10
    導語:本文研究了模型中所有層級的稀疏變量,并提出了-Scaling Transformers。

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    大型模型在許多任務上都產(chǎn)生了令人印象深刻的結果,但是訓練和微調的成本很高,而且解碼速度過慢,以至于研究和使用難度提升。華沙大學,谷歌研究和OpenAI的學者們通過利用稀疏性來解決這個問題。他們研究了模型中所有層級的稀疏變量,并提出了下一代Transformer模型族-Scaling Transformers。

    作者|鄭宇宏

    編輯|陳彩嫻



    1

    Scaling Transformers:

    讓大型語言模型更易于管理

    近年來,基于Transformer架構的大型神經(jīng)網(wǎng)絡,自然語言處理領域取得了巨大的進步。前幾年在Reddit上發(fā)布大量灌水貼的thegentlemetre賬號一周后才被人類發(fā)覺:這竟然是一個應用程序在“作怪”!它正是以被稱為地表最強的語言模型GPT-3為基礎開發(fā)的程序。

    GPT-3作為一個大型語言模型,可以創(chuàng)作出整篇文章,即使把這些文章和人類寫的文章相比較的話,都很難被區(qū)分出來。

    但是這種“聰明”的模型卻有一個弊端。

    因為它的訓練成本極高,不是每個人都有資源來訓練這種大型模型。

    那么如何讓大型語言模型更易于管理以適用日常需要呢?

    華沙大學,谷歌研究和OpenAI的學者們提出一個新的模型族-Scaling Transformers。

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    論文地址:https://arxiv.org/abs/2111.12763

    文章提出了一種通過稀疏化網(wǎng)絡中線性層的激活(前饋和 Q、K、V 投影)來訓練大規(guī)模稀疏模型的方法。該方法特別吸引人,因為它似乎不需要任何特定于硬件或低級別的優(yōu)化即可有效。控制器網(wǎng)絡在激活時生成一個塊式 one-hot 掩碼,并根據(jù)此掩碼動態(tài)選擇后續(xù)層的權重。當擴大模型大小時,用稀疏層來有效擴展并執(zhí)行非批次解碼的速度比標準Transformer模型快的多。在參數(shù)數(shù)量相同的情況下,稀疏層足以獲得與標準Transformer相同的困惑度。



    2

    文章解讀

    Fabio Chiusano在NLP上發(fā)表了對這篇論文的正面評價。Fabio Chiusano是Digitiamo 數(shù)據(jù)科學主管,也是人工智能領域的頂級媒體作家。AI科技評論對Chiusano的點評做了不改原意的整理:

    Scaling Transformer 真的很有趣,因為當我們擴大模型大小時,它們允許有效地縮放語言模型并且比標準 Transformer 更快地執(zhí)行非批處理解碼。嚴謹?shù)卣f:

    • 我們稱其d 為 Transformer 模型的參數(shù)個數(shù)。

    • 然后,一個標準的密集 Transformer 將需要近似d^2計算來進行預測。

    • 相反,稀疏的 Scaling Transformer 將需要近似d^1.5計算。

    如果說這樣的改進看起來不明顯,請考慮一下這d通常是一個非常高的數(shù)字,大約數(shù)十億,實際上實驗表明,Scaling Transformer 為單個令牌帶來了近 20 倍的預測加速(從 3.690s 到 0.183 s) 關于具有 17B 個參數(shù)的密集 Transformer。注意:這些加速是針對未批量預測的。

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    在具有建議的稀疏機制(FF、QKV、FF+QKV)的 C4 數(shù)據(jù)集上,Scaling Transformers(相當于 T5 大小,具有大約 800M 參數(shù))的對數(shù)困惑度類似于基線密集模型。

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    具有 17B 參數(shù)的 Terraformer 的單個令牌的解碼速度比密集基線模型快 37 倍,推理所需的時間少于 100 毫秒/令牌。這里注意力稀疏 = 64,ff-稀疏 = 256,損失稀疏 = 4

    稀疏化的收益非常好。然而,當解碼較長的序列時,它們會更糟,因為解碼時間將由注意力操作控制。

    幸運的是,已經(jīng)提出了許多方法來解決 Transformer 的這個問題,例如LSH(Locality-Sensitive Hashing)注意處理長序列和可逆層以提高內存效率。我會說這不是個微不足道的結果!

    這篇論文還對用于提高 Transformer 效率的其他技術進行了有趣的概述。我在這里報告了它的一些摘錄,我認為它可以作為那些不熟悉 Transformer 技術效率的人的參考。

    • 模型壓縮。模型修剪通過在訓練之后或訓練期間移除不需要的權重來使矩陣更小。

    • 模型蒸餾。模型蒸餾包括在先前訓練的大模型(即教師)的輸出上訓練一個小模型(即學生)。用于移動推理的幾種自然語言模型依靠蒸餾來加速從預先訓練的大型模型中進行推理。

    • 稀疏注意力。基于稀疏注意力的方法通過合并額外的組合機制或選擇該層所關注的標記子集,使注意力層更加高效,尤其是對于長序列。

    • 稀疏前饋。關鍵思想是將前饋層劃分為多個部分(稱為專家),每個令牌只檢索一個部分,這降低了前饋塊的復雜性。這些加速主要以訓練速度來衡量,并且該方法側重于前饋塊。專家方法的混合已被證明可以在訓練中實現(xiàn)計算效率,擴展到一萬億個參數(shù)。

    雖然目前的結果有許多局限性。盡管如此,這篇論文可以被認為是通往可持續(xù)大型模型的第一步。

    大家怎么看?

    參考資料

    https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56

    https://arxiv.org/abs/2111.12763

    https://openreview.net/forum?id=-b5OSCydOMe

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    在Scaling Transformers用稀疏性就足夠了!“有了這樣的研究,我們以后或許能在筆記本電腦上托管 GPT-3”

    分享:
    相關文章
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 日韩精品视频一区二区不卡| 天天夜碰日日摸日日澡性色av| 精品3P| 国产第99页| 国产在线观看无码免费视频| 丰满的少妇被猛烈进入白浆| 国产精品自拍在线视频| 亚洲精品视频一二三四区| 特一级熟女毛片免费观看| 91黄色视频在线观看| 国产亚洲一区二区三区av| 亚洲中文字幕一区二区| 国产成人精品视频三级| 人人做人人澡人人人爽| 亚洲精品一区二区三区蜜| 国产v自拍| 99亚洲视频| 日韩欧美网址| 国产高清免费午夜在线视频| 久久精品国产99久久久古代| 欲香欲色天天综合和网| 精品美女国产互换人妻| 成人网站网址导航| av免费网站| 91女厕高清偷拍| 亚洲第一se情网站| 久久精品岛国AV一区二区无码| 亚洲自拍一区在线观看| 日韩无套内射视频6| 欧美日韩国产精品| 加勒比亚洲视频在线播放| 精品人妻中文字幕在线| 精品无码一区二区三区电影| 2020精品国产自在现线看| 国产精品中文字幕综合| 国产精品一码二码三码四码| 少妇做爱视频| 人妻精品久久久久中文字幕青草| 日韩欧美综合在线制服| 97久久久亚洲综合久久| 国产v综合v亚洲欧美大天堂|