• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給NLP日月星辰
    發(fā)送

    0

    SQuAD,斯坦福在自然語言處理的野心

    本文作者: NLP日月星辰 2016-09-07 18:35
    導(dǎo)語:SQuAD會不會成為自然語言處理的ImageNet

    真英雄,成名于少林寺武俠大會;好算法,驗證在斯坦福公開數(shù)據(jù)。

    武俠小說中一個公平且有影響力的平臺,可以讓俠之大者脫穎而出,科研也是,一個優(yōu)秀的公開數(shù)據(jù)集可以讓好算法脫穎而出,并同時讓那些靠吹的算法身敗名裂。本文將詳細敘述今年目前為止自然語言處理界最重量級的數(shù)據(jù)集 SQuad。

    1. SQuAD是什么?

    SQuAD 是斯坦福大學(xué)于2016年推出的數(shù)據(jù)集,一個閱讀理解數(shù)據(jù)集,給定一篇文章,準(zhǔn)備相應(yīng)問題,需要算法給出問題的答案。此數(shù)據(jù)集所有文章選自維基百科,數(shù)據(jù)集的量為當(dāng)今其他數(shù)據(jù)集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章數(shù)據(jù)集的貢獻者為斯坦福Percy Liang等人,Percy Liang是自然語言處理界的一位全才,在Semantic Parsing, QA, Optimization等多個領(lǐng)域都有重要貢獻。

    SQuAD,斯坦福在自然語言處理的野心

    當(dāng)前的公開數(shù)據(jù)集對比如下,MCTest,Algebra和Science是現(xiàn)在的三個公開的閱讀理解數(shù)據(jù)集,我們可以看到Squad在數(shù)量上遠遠超過這三個數(shù)據(jù)集,這使得在這個數(shù)據(jù)集上訓(xùn)練大規(guī)模復(fù)雜算法成為可能。同時,相比于WikiQA和TrecQA這兩個著名問答數(shù)據(jù)集,Squad也在數(shù)量上遠遠超過。而CNN Mail和CBT雖然大,但是這兩個數(shù)據(jù)集都是挖空猜詞的數(shù)據(jù)集,并不是真正意義上的問答。

    2. 追趕ImageNet ,發(fā)力自動問答領(lǐng)域

    這個數(shù)據(jù)集文章展現(xiàn)了著斯坦福做一個自然語言處理的ImageNet的野心,他很可能成為自然語言學(xué)術(shù)界未來至少一年內(nèi)最流行的數(shù)據(jù)集。模型在這個數(shù)據(jù)集上做出好成績,可以讓自己的文章加分不少,被頂會錄取的幾率大大增加。如果讀者想發(fā)頂會,且目前沒有明確的研究方向,那么刷這個數(shù)據(jù)集是一條很好的道路。

    于此同時,這個數(shù)據(jù)集也會為工業(yè)界做出貢獻。之所以說會為工業(yè)界做出貢獻,因為自然語言處理的研究風(fēng)氣和圖像相比差一些,任務(wù)較多,且沒有在paper里面附帶代碼的行業(yè)規(guī)則,導(dǎo)致很多工作無法重現(xiàn),甚至有些人會連實驗都不做,直接往圖和表里面填數(shù)造一篇文章。而這個數(shù)據(jù)集學(xué)習(xí)了Imagenet,不給測試集,這樣你就沒法作弊,把代碼交上來,我來給你跑,之后把測試集合上的水平評測出來,這樣大家都公平,誰也別吹牛,誰也別作弊。此種環(huán)境有利于真正大貢獻的工作得以浮現(xiàn),例如Residual Network在去年席卷圖像領(lǐng)域,在一個公平的環(huán)境下,以比其他對手好很多的效果呈現(xiàn)在了世人的面前。而SQuAD則是斯坦福在自然語言處理上,意圖構(gòu)建一個類似“ImageNet”的測試集合,分?jǐn)?shù)實時在leaderboard上顯示

    這就讓這個數(shù)據(jù)集有如下優(yōu)勢

    1. 測試出真正的好算法。尤其對于工業(yè)界,這個數(shù)據(jù)集是十分值得關(guān)注的,因為他可以告訴大家現(xiàn)在各個算法在“閱讀理解”或者說“自動問答”這個任務(wù)上的排名。我們可以光看分?jǐn)?shù)排名,就知道世界上哪個算法最好,不會再懷疑是作者做假了還是實現(xiàn)的不對。


    2. 提供一個閱讀理解的大規(guī)模數(shù)據(jù)集。由于之前的閱讀理解數(shù)據(jù)集規(guī)模太小或者十分簡單,用一個普通的深度學(xué)習(xí)算法就可以刷到90%度,所以并不能很好的體現(xiàn)不同算法優(yōu)劣。

    縱使SQuAD不會像ImageNet有那么大的影響力,但絕對也會在接下來的幾年內(nèi)對自動問答領(lǐng)域產(chǎn)生深遠的影響,并且是各大巨頭在自動問答這個領(lǐng)域上的兵家必爭之地(IBM已經(jīng)開始了)。

    3. 如何構(gòu)建 SQuad數(shù)據(jù)集?

    接下來,讓我們詳細介紹這個數(shù)據(jù)集的構(gòu)建(此數(shù)據(jù)集已經(jīng)被EMNLP2016會議收錄 https://arxiv.org/pdf/1606.05250.pdf),我們先感受一下這個數(shù)據(jù)集精美的界面。

    SQuAD,斯坦福在自然語言處理的野心

    從圖中我們可以看到,在驗證集合和測試集合的水平。其中測試集合需要你提交一個可以運行的程序。最后一名和第一名分別是作者做的baseline以及人來回答能達到的水平,我們可以看到雖然只發(fā)布一個月,新加坡一些大學(xué)和IBM公司已經(jīng)在這個任務(wù)上進行了嘗試。 下圖就是這個數(shù)據(jù)集的一個樣例,首先給定一篇文章,然后開始問問題,第一個問題“什么造成了降雨”答案是重力造成的。問題十分有難度,需要推理,不過答案仍然在文中出現(xiàn)過。

    SQuAD,斯坦福在自然語言處理的野心

    數(shù)據(jù)集的具體構(gòu)建如下

    1. 文章是隨機sample的wiki百科,一共有536篇wiki被選中。而每篇wiki,會被切成段落,最終生成了23215個自然段。之后就對這23215個自然段進行閱讀理解,或者說自動問答。

    2. 之后斯坦福,利用眾包的方式,進行了給定文章,提問題并給答案的人工標(biāo)注。他們將這兩萬多個段落給不同人,要求對每個段落提五個問題。

    SQuAD,斯坦福在自然語言處理的野心

    3. 讓另一些人對提的這個問題用文中最短的片段給予答案,如果不會或者答案沒有在文章中出現(xiàn)可以不給。之后經(jīng)過他們的驗證,人們所提的問題在問題類型分布上足夠多樣,并且有很多需要推理的問題,也就意味著這個集合十分有難度。如下圖所示,作者列出了該數(shù)據(jù)集答案的類別分布,我們可以看到 日期,人名,地點,數(shù)字等都被囊括,且比例相當(dāng)。

    SQuAD,斯坦福在自然語言處理的野心

    4. 這個數(shù)據(jù)集的評測標(biāo)準(zhǔn)有兩個,第一:F1,第二:EM。EM是完全匹配的縮寫,必須機器給出的和人給出的一樣才算正確。哪怕有一個字母不一樣,也會算錯。而F1是將答案的短語切成詞,和人的答案一起算recall,Precision和F1,即如果你match了一些詞但不全對,仍然算分。

    5. 為了這個數(shù)據(jù)集,他們還做了一個baseline,是通過提特征,用LR算法將特征組合,最終達到了40.4的em和51的f1。而現(xiàn)在IBM和新加坡管理大學(xué)利用深度學(xué)習(xí)模型,均突破了這個算法??梢韵胍姡诓贿h的將來會有更多人對閱讀理解發(fā)起挑戰(zhàn),自然語言的英雄也必將誕生。甚至?xí)兴惴ǔ^人的準(zhǔn)確度。

    自動問答超越人類,你準(zhǔn)備好了?

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

    SQuAD,斯坦福在自然語言處理的野心

    分享:
    相關(guān)文章

    知情人士

    北京航空航天大學(xué)在讀博士生,研究方向為 自然語言處理,深度學(xué)習(xí)。
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 风间由美性色一区二区三区| 亚洲精品一二三在线观看| 日韩精品一区二区三区久| 激情另类卡通亚洲欧美| www熟女com| 亚洲成人av一区二区| 波多野结衣乳喷高潮视频| 肏屄视频网| 人妻在线中文| 四虎影院176| 麻豆md0077饥渴少妇| 久久青青草原精品国产app| 国产极品嫩模在线观看91| 亚洲国产天堂久久综合网| 拍拍拍免费视频| 人人久精品综合777人人精品综合777| 国产欧美日韩va另类在线播放| 国产仑乱无码内谢| 免费vA片| 日本一区免费视频| 国产99精品视频免费观看| 日日噜噜夜夜狠狠视频欧美人| 国产亚洲999精品AA片在线爽| 亚洲AV无码成人精品区日韩密殿| 国产精品无码a∨精品| 国产一区二区三四区| 久久精品免视看国产明星| 国产制服丝袜在线| 午夜福利偷拍国语对白| 精品国产三级a在线观看不卡| 久久久久久久久日韩中文一区二区三区| 人妻少妇精品免费无码专区v| 热久在线免费观看视频 | 淫荡人妻中文字幕| 日韩av高清在线看片| 国产乱人伦精品一区二区| av无码喷水| 免费观看的AV毛片的网站不卡| 香港日本三级亚洲三级| 亚洲成人av在线资源| 中文字幕人妻中出制服诱惑|