• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給叢末
    發(fā)送

    0

    NLP 圈同行評(píng)議對(duì)資源論文的一些誤解

    本文作者: 叢末 2020-06-29 19:35
    導(dǎo)語(yǔ):審稿人如何寫(xiě)出好的論文評(píng)論?

    NLP 圈同行評(píng)議對(duì)資源論文的一些誤解

    關(guān)于資源論文的危險(xiǎn)偏見(jiàn)

    NLP 中的大多數(shù)成功案例都是關(guān)于監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的。從根本上說(shuō),這意味著我們的解析器、情感分類(lèi)器、QA 系統(tǒng)和其他一切都和訓(xùn)練數(shù)據(jù)一樣好。基于這一事實(shí),數(shù)據(jù)和模型工程,對(duì)于 NLP 進(jìn)一步的發(fā)展來(lái)說(shuō)同樣重要。這就是為什么頂級(jí)會(huì)議 ACL 通常還專(zhuān)設(shè)了一個(gè)「資源和評(píng)估」通道,并頒發(fā)最佳資源論文獎(jiǎng)。

    然而,創(chuàng)建模型和資源這兩項(xiàng)任務(wù)所需要的技能集并不相同,往往也來(lái)自不同的領(lǐng)域,這兩個(gè)領(lǐng)域的研究者往往也對(duì)「論文應(yīng)該是怎樣的」抱有不同的期望。這就使得審稿人的工作進(jìn)入一個(gè)雷區(qū):如果期望得到一個(gè)橘子結(jié)果得到的卻是一個(gè)蘋(píng)果,那么這個(gè)蘋(píng)果看起來(lái)就是錯(cuò)的。以雙方最大的善意來(lái)看,論文被拒絕的原因可能并非論文實(shí)際存在任何缺陷,而是它的基本方法論「不合適」。

    對(duì)于這一點(diǎn)比較失望的作者們?cè)诰€上或線下展開(kāi)的討論,是這篇文章的寫(xiě)作緣由。有一件事很明顯:如果作者和審稿人不能就「論文應(yīng)該是怎么樣的」達(dá)成一致,那么提交論文就是浪費(fèi)彼此的時(shí)間。我希望本文能幫助那些使用數(shù)據(jù)的人,更好地理解那些制作數(shù)據(jù)的人,并對(duì)他們的論文做出更好的評(píng)價(jià)。

    讓我們從消除一些關(guān)于資源論文的誤區(qū)開(kāi)始。不幸的是,下面所有引用都來(lái)自 ACL 審稿人對(duì)論文的真實(shí)評(píng)論!

    誤區(qū) 1:資源論文不是科學(xué)

    也許這一觀點(diǎn)最有代表性的例子來(lái)自于 Rachel Bawden。ACL 2019 年的一位審稿人對(duì)他這篇以機(jī)器翻譯為媒介的雙語(yǔ)對(duì)話資源論文提出了以下意見(jiàn):

    本文主要是對(duì)語(yǔ)料庫(kù)及其集合的描述,幾乎不包含科學(xué)上的貢獻(xiàn)。

    鑒于 ACL 2019 有一個(gè)專(zhuān)門(mén)的「資源和評(píng)估」領(lǐng)域,因此,這種觀點(diǎn)的提出看起來(lái)甚至是不可能的,而出現(xiàn)在評(píng)論中更是不可接受!需要明確的是,資源建設(shè)至少以三種方式增加了知識(shí):

    它們是從建模中獲得任何知識(shí)的先決條件;

    除資源外,可能還有注釋準(zhǔn)則或新的數(shù)據(jù)收集方法;

    基于注釋的迭代準(zhǔn)則開(kāi)發(fā)增加了對(duì)長(zhǎng)尾現(xiàn)象的了解。

    論文鏈接:https://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla

    誤區(qū) 2:資源論文更適合 LREC 或研討會(huì)

    大多數(shù) ACL 會(huì)議都提供一個(gè)專(zhuān)門(mén)的「資源和評(píng)估」通道,但是資源論文的作者通常被建議將他們的工作提交給語(yǔ)言資源和人類(lèi)語(yǔ)言技術(shù)評(píng)測(cè)方面的國(guó)際頂級(jí)會(huì)議 LREC 或一些專(zhuān)題研討會(huì)。我們?cè)俅谓栌孟?Rachel Bawden 在 ACL 2019 中論文評(píng)論里面的一句話:

    我認(rèn)為這篇文章不適合 ACL。它非常適合 LREC 和特定的機(jī)器翻譯會(huì)議和研討會(huì)。

    人們普遍認(rèn)為 NLP 系統(tǒng)工程相關(guān)的工作比資源相關(guān)的工作更有聲望,而這一觀點(diǎn)可能正是與此有關(guān)。由于 ACL 是頂級(jí)會(huì)議,因此,資源論文應(yīng)該被提交給研討會(huì)和級(jí)別較低的 LREC 會(huì)議。

    這種觀點(diǎn)非常不公平,甚至?xí)m得其反。首先,NLP 工程論文每年通常都有好幾次機(jī)會(huì)提交給 NLP 領(lǐng)域的主流頂級(jí)會(huì)議。而 LREC 是唯一一個(gè)專(zhuān)門(mén)討論資源的會(huì)議,每?jī)赡瓴排e辦一次。

    其次,NLP 的進(jìn)展取決于系統(tǒng)和基準(zhǔn)的共同演進(jìn)。NLP 基準(zhǔn)并不完美,當(dāng)我們?cè)谄渲腥魏我粋€(gè)基準(zhǔn)上停留太久時(shí),我們很可能會(huì)開(kāi)始針對(duì)錯(cuò)誤的事情進(jìn)行優(yōu)化,發(fā)表許多 SOTA 論文,但卻并沒(méi)有取得真正的進(jìn)展。因此,開(kāi)發(fā)更具挑戰(zhàn)性的基準(zhǔn)與建模工作同等重要。我們至少可以做到的是,在頂級(jí)會(huì)議上發(fā)表此類(lèi)文章來(lái)推動(dòng)這件事。此外,將數(shù)據(jù)和模型各自置于不同的會(huì)議,不太可能改善這兩個(gè)社區(qū)之間的思想交流。

    誤區(qū) 3:新資源必須大于競(jìng)爭(zhēng)

    針對(duì)這一點(diǎn),我自己在 ACL 2020 上收到了以下評(píng)論:

    本文提出的新語(yǔ)料庫(kù)并不比現(xiàn)有語(yǔ)料庫(kù)大。

    針對(duì)資源論文的這一評(píng)論,其實(shí)就相當(dāng)于在評(píng)審系統(tǒng)論文以「如果不是 SOTA,則拒絕」來(lái)判定一篇論文的生死。測(cè)試性能提供了一種簡(jiǎn)單的啟發(fā)式方法來(lái)判斷新模型的潛在影響,與此同時(shí)數(shù)據(jù)集大小成為其實(shí)用性好壞的指標(biāo)。在這兩種情況下,來(lái)自工業(yè)界和資金雄厚的實(shí)驗(yàn)室的論文都有優(yōu)勢(shì)。

    由于數(shù)據(jù)量往往與數(shù)據(jù)質(zhì)量成反比,因此這種態(tài)度隱晦地鼓勵(lì)眾包并阻礙專(zhuān)家注釋。上述提到的向 ACL 2020 提交的論文提供了一個(gè)具有專(zhuān)家語(yǔ)言注釋的資源,其中存在著更大、噪聲更多的眾包替代方案。這篇論文特別討論了為什么直接比較這些資源的大小是沒(méi)有意義的。不過(guò),其中一位評(píng)審人認(rèn)為,新的語(yǔ)料庫(kù)比眾包語(yǔ)料庫(kù)要小,這顯然降低了它的價(jià)值。

    誤區(qū) 4:資源必須是英語(yǔ)或跨語(yǔ)言較大的

    語(yǔ)言的數(shù)量似乎與數(shù)據(jù)集的大小具有大致相同的功能:一種判斷其潛在影響的啟發(fā)式方法。以下是 Robert Munro 從另一篇 ACL 論文評(píng)論中引用的一段話:

    總的來(lái)說(shuō),沒(méi)有好的跡象表明其他語(yǔ)言對(duì)能取得好的結(jié)果。

    這是一個(gè)絕對(duì)有效的評(píng)論,它適用于大多數(shù)只關(guān)注英語(yǔ)卻探討建模「語(yǔ)言」(#BenderRule) 的 NLP 論文。因此,如果這一觀點(diǎn)被認(rèn)可,那么每一篇論文都要求必須是跨語(yǔ)言的研究。然而這一觀點(diǎn),往往是由非英語(yǔ)資源論文的評(píng)審人提出的。

    其結(jié)果是,這種工作正在被邊緣化,并受到了阻礙。我有幸參加了 ESSLLI 2019,并與一些出色的拉脫維亞文研究人員進(jìn)行了交流,他們研究針對(duì)自己的語(yǔ)言的 NLP 系統(tǒng)。他們告訴我,他們放棄了主要的 ACL 會(huì)議,因?yàn)樗麄兊墓ぷ鞣秶^(guò)狹窄,大多數(shù)人沒(méi)有興趣。這對(duì)每個(gè)人來(lái)說(shuō)都是一個(gè)損失:要把對(duì)英語(yǔ)有用的想法轉(zhuǎn)移到其他語(yǔ)言上絕非易事,這些拉脫維亞文研究人員想出的訣竅可能在全球范圍內(nèi)都有很大的用處。此外,如果我們?cè)?NLP 社區(qū)的目標(biāo)是建立「人類(lèi)語(yǔ)言」的模型,我們不太可能只關(guān)注其中一種語(yǔ)言就獲得成功。

    將語(yǔ)言數(shù)量與論文的潛在影響混為一談,會(huì)給跨語(yǔ)言研究帶來(lái)一個(gè)有趣的結(jié)果:他們擁有的語(yǔ)言越多,在審稿人眼中就越好。

    然而,如果在所有這些語(yǔ)言中執(zhí)行任何有意義的分析,那么語(yǔ)言數(shù)量通常會(huì)隨著作者列表長(zhǎng)度的增加而增加:例如有一篇關(guān)于通用依賴(lài)性的論文就有 85 位作者(論文地址:https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),該論文涉及的語(yǔ)言數(shù)量就比較多。

    一個(gè)普通的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室沒(méi)有辦法做這樣的事情,所以為了取悅審稿人,他們使用了機(jī)器翻譯來(lái)擴(kuò)增語(yǔ)言數(shù)量,甚至在類(lèi)型聲明中也使用了機(jī)器翻譯(以「BERT Is Not an Interlingua and the Bias of Tokenization」論文為例:https://doi.org/10.18653/v1/D19-6106 )。在這種情況下,語(yǔ)言數(shù)量并不能完全代表論文的整體質(zhì)量。

    誤區(qū) 5:已有數(shù)據(jù)集太多了

    針對(duì)這一觀點(diǎn),以下是 EMNLP 2019 論文評(píng)論中的一個(gè)例子:

    本文提出了另一種問(wèn)答測(cè)試。

    為了保證公平性,這位審稿人隨后提到,如果一個(gè)新的基準(zhǔn)提供了一些全新的方法,它可能會(huì)擁有一席之地。不過(guò),其隱含的假設(shè)是,資源論文應(yīng)該有一個(gè)上限,有大量的問(wèn)答數(shù)據(jù)多少會(huì)適得其反。

    有一種觀點(diǎn)認(rèn)為,有太多基準(zhǔn)會(huì)稀釋社區(qū)的努力。然而,只有當(dāng)有一個(gè)基準(zhǔn)本質(zhì)上比所有其他基準(zhǔn)都好時(shí),這一點(diǎn)才會(huì)成立。如果不是這樣,只關(guān)注一個(gè)數(shù)據(jù)集可能會(huì)適得其反。有了大量的數(shù)據(jù)集,我們至少可以進(jìn)行更好的泛化研究。例如,在 SQuAD、CoQA 和 QuAC 上訓(xùn)練的模型不會(huì)相互轉(zhuǎn)移,即使這三個(gè)數(shù)據(jù)集都基于 Wikipedia(論文地址:https://arxiv.org/pdf/1809.10735.pdf)。

    有趣的是,對(duì)于系統(tǒng)論文也可以提出同樣的觀點(diǎn):在下一次突破之前,社區(qū)應(yīng)該對(duì) BERT 進(jìn)行多少增量修改是否應(yīng)該有一個(gè)上限?(相關(guān)論文地址:https://arxiv.org/pdf/2002.12327.pdf)

    誤區(qū) 6:每一篇 ACL 資源論文都必須隨附 DL 實(shí)驗(yàn)

    以上所有的謬論都很容易被駁斥,因?yàn)樗鼈兎从沉诉壿嬌系闹囌`和一種研究?jī)A向——不喜歡與主流 NLP 系統(tǒng)論文不一樣。但其中有一個(gè)似乎與社區(qū)真正的分歧相對(duì)應(yīng):

    NLP 圈同行評(píng)議對(duì)資源論文的一些誤解

    繼續(xù)進(jìn)行 #NLProc 同行評(píng)審辯論!

    到目前為止,最棘手的問(wèn)題是:ACL 是否應(yīng)該要求資源論文進(jìn)行一些概念驗(yàn)證的應(yīng)用?

    支持方:沒(méi)有 ML 實(shí)驗(yàn)=>就投稿到 LREC

    反對(duì)方:超新的方法論/高影響力的數(shù)據(jù)就足矣


    你的觀點(diǎn)是什么?

    看過(guò)幾十條評(píng)論,顯而易見(jiàn)人們?cè)诼?tīng)到「資源論文」時(shí),很明顯會(huì)有不同的想法。是否需要進(jìn)行 DL 實(shí)驗(yàn),甚至是否合適,都取決于貢獻(xiàn)的類(lèi)型。

    NLP 任務(wù)/基準(zhǔn):主要觀點(diǎn)通常是,新基準(zhǔn)比以前的基準(zhǔn)更具挑戰(zhàn)性。這一說(shuō)法顯然必須得到實(shí)驗(yàn)結(jié)果的支持。

    計(jì)算語(yǔ)言資源(詞匯、詞典、語(yǔ)法):其價(jià)值在于從某些角度提供盡可能完整的詳細(xì)語(yǔ)言描述。類(lèi)似 VerbNet 這樣的語(yǔ)言資源,并不是為任何特定的 DL 應(yīng)用程序創(chuàng)建的,因此不應(yīng)該要求包含任何這樣的實(shí)驗(yàn)。

    介于這兩個(gè)極端之間的,是可以很容易地構(gòu)建為 DL 任務(wù)/基準(zhǔn)的資源類(lèi)型,但還不清楚它們是否應(yīng)該是必需的,甚至是最好的選擇。具體而言,這涉及:

    非公開(kāi)數(shù)據(jù)的發(fā)布:以前非公開(kāi)的數(shù)據(jù)資源,如匿名醫(yī)療數(shù)據(jù)或來(lái)自私人公司的數(shù)據(jù)。作者的貢獻(xiàn)是使發(fā)布成為可能的法律或行政工作。

    具有語(yǔ)言注釋的資源(樹(shù)庫(kù),共指,照應(yīng),時(shí)態(tài)關(guān)系等):這些資源的質(zhì)量傳統(tǒng)上是由注釋之間的一致性來(lái)衡量的。作者的貢獻(xiàn)是注釋工作或注釋方法。

    在這兩種情況下,數(shù)據(jù)可能以多種不同的方式使用。可以只提供標(biāo)準(zhǔn)的訓(xùn)練/測(cè)試拆分,并將資源作為新任務(wù)或基準(zhǔn)來(lái)呈現(xiàn),從而使某些實(shí)踐者的生活變得更輕松——這些實(shí)踐者只想尋找新任務(wù)來(lái)設(shè)置自己喜歡的算法。但這可能不是唯一用來(lái)思考新數(shù)據(jù)的方法,甚至不是最好的方法。這時(shí),這場(chǎng)討論演變成了一場(chǎng)不科學(xué)的拔河比賽,大致是這樣的:

    工程師:這個(gè)數(shù)據(jù)是給我的嗎?如果是,我想看看相關(guān)實(shí)驗(yàn),證明這是可以學(xué)習(xí)的。

    語(yǔ)言學(xué)家:這實(shí)際上是關(guān)于語(yǔ)言而不是深度學(xué)習(xí)的數(shù)據(jù)。但如果你愿意,歡迎使用這些數(shù)據(jù)。

    在這一灰色地帶,我懇請(qǐng)領(lǐng)域主席定好他們的期望,并向作者和審稿人明確說(shuō)明這一點(diǎn)。否則我們會(huì)陷入一個(gè)雷區(qū):一些審稿人認(rèn)為基線實(shí)驗(yàn)是一項(xiàng)硬性要求,但作者沒(méi)有預(yù)料到這一點(diǎn)。不然作者們提交的論文對(duì)作者本身以及審稿審得疲憊不堪的審稿人和領(lǐng)域主席來(lái)說(shuō)都是浪費(fèi)時(shí)間。而他們明確說(shuō)明這一點(diǎn),則可以很容易地防止這種浪費(fèi)。 

    就我個(gè)人而言,我反對(duì)將基線實(shí)驗(yàn)作為硬性要求,理由如下:

    NLP 是一個(gè)跨學(xué)科的項(xiàng)目,我們需要盡可能得到來(lái)自各個(gè)學(xué)科的所有幫助。要求每一次提交都要用機(jī)器學(xué)習(xí)方法打包,這不僅會(huì)阻礙擁有不同技能的研究者的數(shù)據(jù)和想法之間流動(dòng),還會(huì)影響語(yǔ)言學(xué)、社會(huì)學(xué)和心理學(xué)等領(lǐng)域之間的數(shù)據(jù)和思想流動(dòng)。

    包含這樣的實(shí)驗(yàn)可能不會(huì)取悅?cè)魏我环健H绻髡卟皇潜仨氃谡撐闹邪€的話,會(huì)給語(yǔ)言學(xué)家們留下一些本可以解決的問(wèn)題。工程師們會(huì)變得只關(guān)注基線部分,然而最終發(fā)現(xiàn)基線部分并沒(méi)有那么引人關(guān)注。

    以我的一篇論文作為具體案例,這篇論文提出了一個(gè)新的情感標(biāo)注方案,一個(gè)新的數(shù)據(jù)集,并展示了一些基線實(shí)驗(yàn)(論文地址:https://www.aclweb.org/anthology/C18-1064.pdf)。審稿人指出的一個(gè)不足之處是:

    使用域內(nèi)單詞嵌入獲得的結(jié)果不足為奇。一個(gè)眾所周知的事實(shí)是,域內(nèi)單詞嵌入相對(duì)于一般單詞嵌入更具信息性。 

    我們對(duì)域內(nèi)嵌入的評(píng)論只是簡(jiǎn)單地描述了結(jié)果表,并無(wú)意作為啟示。這篇論文的貢獻(xiàn)在于資源和方法,但在文中出現(xiàn)的這些實(shí)驗(yàn)顯然引發(fā)了審稿人的錯(cuò)誤預(yù)期。雖然最終我們的論文被接收了,但其他很多人可能掉進(jìn)了這個(gè)陷阱。

    如何給論文寫(xiě)出好的評(píng)論

    我適合當(dāng)這篇論文的審稿人嗎?

    蘋(píng)果是蘋(píng)果,橘子是橘子,兩者都有自己的優(yōu)點(diǎn)。因?yàn)橘Y源論文不是系統(tǒng)論文而拒絕它,是沒(méi)有意義的。要寫(xiě)一篇建設(shè)性的評(píng)論,首先,你需要從與作者同樣的方法論角度來(lái)看待它的貢獻(xiàn)。如果有不匹配的地方,也就是說(shuō),如果你被分配去審一篇貢獻(xiàn)類(lèi)型不在你的研究范圍內(nèi)的論文,最好讓領(lǐng)域主席重新分配。

    以下是資源論文的一些主要類(lèi)型,以及撰寫(xiě)高質(zhì)量評(píng)論所需的專(zhuān)業(yè)知識(shí):

    眾包NLP訓(xùn)練/測(cè)試數(shù)據(jù)集:基礎(chǔ)眾包方法論的知識(shí)、對(duì)潛在問(wèn)題(如非自然信號(hào))的認(rèn)識(shí)(論文地址:https://arxiv.org/pdf/1803.02324.pdf )和注釋者偏差(論文地址:https://arxiv.org/abs/1908.07898 ),以及此任務(wù)的其他可用數(shù)據(jù)集。理想情況下,你至少自己構(gòu)建了一個(gè)此類(lèi)資源。

    帶語(yǔ)言注釋的語(yǔ)料庫(kù)(語(yǔ)法、復(fù)指、共指、時(shí)態(tài)關(guān)系):有關(guān)語(yǔ)言理論和注釋經(jīng)驗(yàn)的知識(shí),注釋可靠性估計(jì),以及這一特定子領(lǐng)域的現(xiàn)有資源。理想情況下,你至少自己構(gòu)建了一個(gè)此類(lèi)資源。

    語(yǔ)言知識(shí)資源(語(yǔ)法、詞典、詞匯數(shù)據(jù)庫(kù)):語(yǔ)言理論的其他知識(shí)和所有其他相關(guān)資源。理想情況下,你至少自己構(gòu)建了一個(gè)此類(lèi)資源。

    那么,非英語(yǔ)資源呢?我們不能指望總是有這樣一批審稿人,他們都是該領(lǐng)域的專(zhuān)家,而且都會(huì)說(shuō)一種特定的稀有語(yǔ)言,所以答案很可能是「分工」。當(dāng)我們以審稿人的身份注冊(cè)會(huì)議時(shí),除了專(zhuān)業(yè)領(lǐng)域外,我們還可以指定語(yǔ)言。如果一篇資源(或系統(tǒng))論文不是用英語(yǔ)撰寫(xiě)的,那么除了目標(biāo)領(lǐng)域的兩位專(zhuān)家外,領(lǐng)域主席最好能找到至少一位會(huì)說(shuō)這種語(yǔ)言的審稿人。不懂這門(mén)語(yǔ)言的人仍然可以評(píng)估能判斷部分的貢獻(xiàn)(方法、分析、與其他工作的有意義的比較)。只要領(lǐng)域主席在你的評(píng)論中清楚地知道論文的哪些部分超出了你的范圍,都將能夠做出明智的決定,并在必要時(shí)招募額外的審稿人。當(dāng)然,作者應(yīng)該通過(guò)添加注釋來(lái)幫助應(yīng)對(duì)這一問(wèn)題。

    在 ACL 中,什么樣的資源論文才是有價(jià)值的?

    一旦你確定你看待這篇論文的角度與作者的方法論一致,你就需要判斷它的實(shí)際貢獻(xiàn)。當(dāng)然,并不是所有的資源論文都值得發(fā)表在一個(gè)頂級(jí)的 NLP 會(huì)議上!對(duì)于系統(tǒng)和資源論文來(lái)說(shuō),接收標(biāo)準(zhǔn)并沒(méi)有太大的不同。大多數(shù)會(huì)議都對(duì)這種方法的新穎性、貢獻(xiàn)大小、潛在影響的大小感興趣。在 ACL 中具有價(jià)值的論文,無(wú)論是任何一種類(lèi)型,論文作者都需要對(duì)其中的至少一項(xiàng)進(jìn)行有力的論證。

    下面是一些符合(或不符合)這些標(biāo)準(zhǔn)的資源論文類(lèi)型的示例。

    高新穎度:重大概念創(chuàng)新

          示例:新任務(wù),新注釋方法;

          反例:使用現(xiàn)有框架收集更多數(shù)據(jù)或更新現(xiàn)有資源,或只是將現(xiàn)有資源轉(zhuǎn)換為其他語(yǔ)言。

    高影響力:解決一個(gè)普遍存在的問(wèn)題,提出具有高度概括性的新方法(跨語(yǔ)言或任務(wù))。

          示例:發(fā)現(xiàn)影響多個(gè)數(shù)據(jù)集的偏差,發(fā)布時(shí)間敏感的數(shù)據(jù)(例如,有關(guān)冠狀病毒最新研究數(shù)據(jù)集);

          反例:減小由一個(gè)特定數(shù)據(jù)集中注釋器準(zhǔn)則引起的特定偏差。

    高質(zhì)量、豐富性或規(guī)模:重要的公共數(shù)據(jù)發(fā)布,能在語(yǔ)言描述,數(shù)據(jù)質(zhì)量或資源量方面提供明顯的優(yōu)勢(shì)。 

          示例:語(yǔ)言數(shù)據(jù)庫(kù)(如 VerbNet),帶有語(yǔ)言注釋的語(yǔ)料庫(kù),在特定情況下有機(jī)收集的數(shù)據(jù)(如匿名醫(yī)療數(shù)據(jù));

          反例:沒(méi)有明顯優(yōu)勢(shì)的噪聲數(shù)據(jù),不公開(kāi)的數(shù)據(jù)。

     重申一下:只要滿足其中一個(gè)標(biāo)準(zhǔn),一篇論文就是值得發(fā)表的:一個(gè)狹窄的問(wèn)題可以用一種非常新穎的方式來(lái)解決;如果噪聲數(shù)據(jù)集非常完整,那么會(huì)產(chǎn)生很大的影響;如果論文表明了為英語(yǔ)版本開(kāi)發(fā)的技術(shù)完全無(wú)法推廣,僅僅簡(jiǎn)單地將資源改寫(xiě)為另一種語(yǔ)言也可能會(huì)引起巨大轟動(dòng)。

    但作者確實(shí)需要證明至少有一個(gè)標(biāo)準(zhǔn)適用性很強(qiáng),并使審稿人相信沒(méi)有嚴(yán)重的缺陷(例如,通過(guò)丟棄大部分?jǐn)?shù)據(jù)來(lái)放大內(nèi)部注釋器的一致性)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

    相關(guān)參考文獻(xiàn)詳見(jiàn)原文: https://hackingsemantics.xyz/2020/reviewing-data/

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    NLP 圈同行評(píng)議對(duì)資源論文的一些誤解

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 18禁成人免费无码网站| 99热这里只有精品综合久久| www.av在线| 国产亚洲欧美日韩在线观看不卡| 久久精品国产精品国产精品污| 久久综合九色综合97欧美| 国产老熟女无套内射不卡| 国产精品秘?国产A级| 97久久精品人人做人人爽| 亚洲中久无码永久在线观看软件 | 久久精品国产精品亚洲艾草网 | 日韩永久永久永久黄色大片| 男女xx00上下抽搐动态图| 超鹏在线视频播| 无码人妻一区二区三区…| 精品久久精品久久99| 人人妻人人澡人人爽精品欧美| 暖暖 在线 日本 免费 中文| 一出一进一爽一粗一大视频| 天天躁日日躁狠狠躁av麻豆| 亚洲国产另类精品| 韩国av无码| 看久久久久久一级毛片| 日韩人妻精品无码制服| 少妇人妻偷人精品系列| 日本免费人成视频在线观看| 亚洲日韩字幕| 风韵丰满妇啪啪区老老熟女杏吧 | 尤物成AV人片在线观看| 国产成人无码精品久久久露脸| 亚洲欧洲美洲在线观看| 无码一区二区三区视频在线播放 | 制服丝袜在线观看视频| 亚洲人成在线精品| 久久偷拍视频只有精品| 鲁丝一区鲁丝二区鲁丝三区| 午夜福利看片在线观看| 久久久av男人的天堂| 最新免费av在线播放| 亚洲一区二区三区影院| 国产精品成人网址在线观看 |