• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給MrBear
    發送

    3

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    本文作者: MrBear 編輯:幸麗娟 2019-07-11 10:11 專題:ACL 2019
    導語:有實驗論證的加持,比過去的解釋更為可靠!

    雷鋒網 AI 科技評論按:在近些年的自然語言處理研究中,「詞類比」是一個十分有趣的現象,最經典的例子莫過于「國王-男人+女人=皇后」。然而,如何將神經網路的黑盒拆開從而解釋這一神奇的現象,一直都是有待探索的有趣的科學問題。近日,ACL 2019 上一篇名為「Towards Understanding Linear Word Analogies」(https://arxiv.org/abs/1810.04882)的論文對該問題進行了探究,從 csPMI 理論的角度對此進行了解釋。

    眾所周知,詞向量有一個神奇的特性,那就是:我們往往可以通過向量的算術來實現單詞的類比。最著名的例子就是:

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019 

    但這是為什么呢?為什么算術運算符適用于像「word2vec」這樣的非線性模型生成的向量呢?在向量空間中,要想通過訓練語料庫使這些類比成立需要滿足什么條件?

    令人驚訝的是,很少有理論試圖解釋這種現象,而那些現有的理論對詞頻或向量空間做出了很強的假設。在我們發表在 ACL 2019 上的論文「Towards Understanding Linear Word Analogies」(http://arxiv.org/abs/1810.04882)中,我們在不做出這種強假設的條件下,針對「GloVe」和「基于負采樣的skipgram」兩種嵌入模型提出了詞類比運算的正式解釋。反過來,我們的理論也提供了:

    1. 在 SGNS 和 GloVe 空間中關于歐幾里得距離的第一個基于信息論的解釋;

    2. 使用加法構成 SGNS 詞向量的新依據;

    3. 「GloVe」模型原始論文(https://nlp.stanford.edu/pubs/glove.pdf)中提出的對于詞類比的直觀解釋的正式證明。

    最重要的一點是,我們的理論有實驗論證的加持,比過去的解釋更為可靠。

    過去的解釋的不足之處

    在 2016 年 TACL 的一篇論文「A Latent Variable Model Approach to PMI-based Word Embeddings」中,論文作者提出了潛變量模型(https://arxiv.org/abs/1502.03520),這也是研究者首次嘗試對詞類比算術進行嚴格解釋。Gittens 等人在論文「Skip-Gram – Zipf + Uniform = Vector Additivity」(https://www.aclweb.org/anthology/P17-1007)中對此理論提出了批評,他們認為該理論假設詞向量是一種先驗概率,并且是通過隨機地對從單位曲面上采樣得到的向量進行放縮生成的(或者說具有與該過程一致的屬性)。潛變量模型也依賴于單詞向量的各向同性,即使已經有實證研究證明 SGNS 向量通常不具有這種性質(相關工作可參考:https://www.aclweb.org/anthology/D17-1308)。

    2017 年 ACL 的一篇論文「Skip-Gram – Zipf + Uniform = Vector Additivity」提出的釋義模型(paraphrase model,https://www.aclweb.org/anthology/P17-1007)認為,如果 p(w|c_1,...,c_m) = p(w|c) 成立,則上下文單詞序列 C={c_1,...,c_m}在語義上與某個單詞 c 等價。如果詞頻符合一個均勻分布,那么我們可以將單詞序列 C 的釋義寫作其上下文向量的和;向量的算術與該集合中的容斥(inclusion or exclusion)相對應。然而,該論文的作者承認該假設有些不切實際:詞頻往往遵循一個齊夫分布(Zipf distribution),該分布與標準分布相去甚遠。最近一份發表在 ICML 2019 上的工作(https://arxiv.org/pdf/1901.09813.pdf)在完全不考慮 SGNS 中負采樣的影響的情況下,對此假設進行變通。

    詞類比的結構

    最廣為接受的看法是,詞類比是形如「a 之于 b,相當于 x 之于 y」的聲明,也就是說 a 和 x 經過相同的變換后會分別得到 b 和 y,反之亦然。由于這是一個可逆變換,我們可以將其更形式化地定義為:詞類比 f 是一種在一組有序單詞對 S 上成立的可逆變換,當且僅「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019當 f 可以表示為如「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019的形式時,我們就稱其為一個線性詞類比。我們將對這種線性詞類比(例如,「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019)進行進一步的解釋。當它們恰好成立時,它們會(根據上述定義)在向量空間中形成一個平行四邊形結構:

     

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019


    這樣的平行四邊形具備一些我們可以利用的實用屬性。例如,一個四邊形是平行四邊形,當且僅當每一組對邊長度都相等(而且在跟高維的空間中,所有四個頂點共面)。這意味著:

    一個線性詞類比在一組有序單詞對 S 上成立,當且僅當對于每一對(x,y)單詞對,有「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019等;對于每兩對單詞對(a,b)和(x,y)有「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019,S 中所有的單詞的向量共面。

    解釋內積

    為了明確解釋上述條件的意義,我們需要能夠解釋兩個單詞向量之間的內積(即點積)。

    然而,現有的文獻只告訴我們如何解釋一個單詞和一個上下文向量之間的內積。不妨回想一下,SGNS 和 GloVe 為每個單詞創建了兩種表征,其中一種保證針對于該單詞是目標單詞的情況,另一種表征針對于該單詞是上下文單詞的情況(即該單詞在其它單詞的上下文窗口中)。后一種表征被稱為「上下文向量」,通常會在訓練后被刪除。

    我們可以明確解釋一個單詞和上下文向量的內積,因為即使 SGNS 和 GloVe 實際上是迭代地學習向量,他們也會隱式地分解一個包含共現統計量的「單詞-上下文」矩陣。當分解后的矩陣可以被完美地重建時,「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019為單詞向量,「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019為相應的上下文向量:

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    第一個等式是 GloVe(https://nlp.stanford.edu/pubs/glove.pdf)的局部目標,其中「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019代表共現次數,b_x,b_y 代表學到的每個單詞的偏置。第二個等式由 Levy 和 Goldberg 提出(https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf),他們證明了 SGNS 隱式地對「單詞-上下文」對的點互信息(PMI,https://en.wikipedia.org/wiki/Pointwise_mutual_information)矩陣進行了分解,并減去了負樣本個數 k 的對數。由于被分解的矩陣是對稱的,我們有

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    上下文空間中的類比

    利用這些等式和分解后的「單詞-上下文」矩陣的對稱性,我們證明了:任何在單詞空間中成立的線性類比 f,都有一個相應的在上下文空間中成立的線性類比 g。具體而言:

    一個在無重建誤差的 SGNS 或 GloVe 單詞空間中的有序對 S 上的線性類比「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019成立,當且僅當在相應的上下文空間中的有序對 S 上存在「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019,使得「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    這意味著我們可以將「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019寫作「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019的內積乘以 1/λ,從而使其更具有可解釋性。

    線性詞類比何時成立?

    現在,我們知道了線性類比在向量空間中成立所需要滿足的條件,以及如何解釋兩個單詞向量的內積。

    這意味著我們現在可以使用上述的 SGNS 或 GloVe 的等式,重寫這些關于訓練語料庫的統計量的條件。無論我們選擇哪個等式,我們最終都會運用到共現偏移點互信息定理(或簡稱 csPMI 定理)。值得一提的是,即使 SGNS 和 GloVe 是完全不同的嵌入模型,類比現象在其向量空間中出現的條件是相同的!

    共現偏移點互信息定理(csPMI)

    令 W 為無重建誤差的 SGNS 或 GloVe 單詞向量空間,M 為 SGNS 或 GloVe 隱式分解得到的「單詞-上下文」矩陣,S 為一組有序對,滿足 |S|>1,且 S 中的所有單詞都在 W 向量空間中有一個對應的向量。


    一個線性類別 f 在單詞對 S 上成立,當且僅當:

    • 每個(x,y)單詞對的 csPMI(x,y)相等

    • 對于每兩個單詞對(x,y),(a,b),有 csPMI(a,x)=csPMI(b,y)

    • 對于每兩個單詞對,「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019是線性相關的

    例如,要使「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019在一個無噪聲的 SGNS 或 GloVe 空間中成立

    我們需要訓練語料庫滿足下面的條件:

    • csPMI(king, queen) = csPMI(man, woman)

    • csPMI(king, man) = csPMI(queen, woman)

    • 分解后的「單詞-上下文」矩陣中的四個單詞的行向量共面

    對噪聲的魯棒性

    實際上,即使在有噪聲的情況下,線性詞類比也是成立的。這是為什么呢?

    1. 向量相等的定義實際上較為寬松。一個類比任務「(a,?)::(x,y)」可以通過尋找最接近「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019的單詞來解決(不包括「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019是可能的答案的情況)。即使最終找到的答案可能并不精確,也并不在由

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019定義的平面上,但是我們仍然可以找到正確的答案。

    2. 盡管該定理假設所有的單詞對都沒有重建誤差,如果我們不考慮共面性的約束,要想使得 f 在有序對 S上恰好成立,只有「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019需要被重建。

    3. 類比只在頻繁出現的單詞對上成立,這樣就可以使噪聲更少。例如,在維基百科中,國家及其首都的類比的中位數為 3436.5,該類比的準確率高達 95.4%;而國家及其貨幣的類比的中位數僅為 19,期準確率則只有 9.2%。

    影響

    直覺一直都是正確的!

    提出原始的 GloVe 模型的論文(https://nlp.stanford.edu/pubs/glove.pdf)推測:形如「a 之于 b,相當于 x 之于 y」的類比成立,當且僅當對于詞匯表中的所有單詞 ω,有:

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    盡管缺乏正式的證明,但這一直被認為是對詞類比的直觀解釋。在我們的論文中,我們證明了這個推測確實是正確的(至少對于 SGNS 是正確的)。

    向量加法形式的詞類比

    通過引入零向量φ(在任意空間中映射到模為零向量)的概念,我們可以將向量加法「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019設計成在「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019上的線性類比。如果 z 在單詞表中,則有「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019,其中「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019是與模型相關的常量。這反過來意味著:

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019 

    這表明,增加兩個 SGNS 向量隱式地降低了出現頻率更高的詞的權重,因為加權方案,例如 SIF(http://www.offconvex.org/2018/06/17/textembeddings/)、TF-IDF 需要視情況而定。比如說,如果將代表「x=’the’」和「y=’apple’」的向量相加,從而創建一個代表「z=’the_apple’」的向量。而且如果這實際上是單詞表中的一項,我們希望有 csPMI(‘the_apple’,‘apple’) > csPMI(‘the_apple’,‘the’)。盡管事實上,大多數雙字詞并不存在于單詞表中,但這有助于解釋經驗性的觀測結果(https://www.cs.cmu.edu/~jwieting/wieting2016ICLR.pdf):平均單詞向量是一種非常有效的組合單詞的方法。

    解釋歐幾里得距離

    存在「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019,使得對于任意兩個在無噪聲的 SGNS 或 GloVe 空間中的單詞 x 和 y,有:

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    平方后的兩個單詞之間的歐幾里得距離是他們的負 csPMI 的遞減線性函數。這是很直觀的:通過 csPMI 進行度量時,在訓練語料庫中越相似的兩個單詞的詞向量之間的距離就越小。盡管如此,據我們所知,這還是第一次從信息論的角度解釋單詞向量空間中的歐幾里得距離。

    實驗證據

    正如前面提到的,之前的理論的一個關鍵問題是只有很少(如果有的話)的實驗證據能夠支撐它們。下面,我們展示了兩個實驗中的發現,這兩個發現為我們的研究提供了證據。 

    估計 csPMI

    根據 csPMI 定理,如果一個類比下號在一組無噪聲單詞向量空間中的單詞對上成立,那么每一對單詞都具有相同的 csPMI 值。為了檢驗這一點,我們計算了維基百科中共現的詞數,并計算了 word2vec 論文中必須成立的單詞對的類比的平均 csPMI 值(例如,對于「首都-國家」單詞對來說,有 {(Paris, France)、(Berlin, Germany)} 成立)。接著,我們試圖使用在維基百科數據上訓練的 SGNS 向量,通過傳統的最小化余弦距離的方式,對這些類比進行求解。「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    在上面的表格中,我們可以看到:

    1. 當 csPMI 的方差較小時,類比的解的準確率更高(皮爾遜相關系數 r=-0.70)。這是因為當幾何平移性相同、并因此使得 csPMI 的值相同時,類比更有可能更有可能在一組單詞對上成立。

    2. 相似的類比(例如「首都-國家」和「首都-平民-國家」)具有相似的平均csPMI 值。我們的理論暗示了這一點(因為相似的類比有相似的平移向量)。

    3. 平均 csPMI 的變化反映了類比類型的變化,從地理信息(紅色)到時態(紫色)再到形容詞(藍色)。唯一的異常值是「currency」(貨幣),它具有很高的 csPMI 方差、非常低的準確率,而且單詞對很少共同出現在維基百科中。還需注意的是,盡管類比于平均 csPMI 的變化情況非常一致,但是它們與平均 PMI 并沒有關系。

    歐幾里得距離和 csPMI

    為了檢驗 csPMI 定理對歐幾里得距離的解釋,我們繪制了在維基百科數據上訓練的 SGNS 向量的以「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019為橫坐標,以「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019為縱坐標的圖像。

    正如預期的那樣,橫縱坐標之間有一個較強的正相關關系(皮爾遜相關系數 r=0.502);兩個單詞越相似(正如 csPMI 定義的那樣),二者詞向量之間的歐幾里得距離越小。在歸一化單詞空間中,相關性也有這么強(皮爾遜相關系數 r=0.514)。

    結語

    在無噪聲的 SGNS 或 Glove 空間中,線性類比在一組單詞對上成立,當且僅當對于每個單詞和任意兩個單詞對來說,它們在分解出的「單詞-上下文」矩陣中的行向量共面的情況下,共現偏移點互信息(csPMI)相同。

    反過來,這再次證明了人們長期以來對于「類比」現象為何成立的直覺,有助于解釋為什么向量加法是一種很好的組合單詞的方法,并對詞向量空間中的歐幾里得距離提出了一種新的解釋。于過去的詞類比算法理論不同,本文有充足的實驗證據支撐 csPMI 定理,從而使其更站得住腳。

    via https://kawine.github.io/blog/nlp/2019/06/21/word-analogies.html  雷鋒網雷鋒網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    「國王-男人+女人=皇后」背后的詞類比原理究竟為何?| ACL 2019

    分享:
    相關文章

    知情人士

    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 中文字幕在线日亚洲9| wwwjizzjizzcom| 久久国产综合色免费观看| 综合88av| 成人综合婷婷国产精品久久| 久久久久亚洲AV成人网人人软件 | 国产亚洲精品自在久久蜜TV| 免费国产精品黄色一区二区| 好吊妞这里有精品| 影音先锋大黄瓜视频| 国产美女在线精品观看| 亚洲精品国产福利一二区| 性做久久久久久久| 亚洲欧洲日产国产av无码| 中文字幕一区三级久久日本| 天天做天天躁天天躁| 亚洲AV第二区国产精品| 国产99r视频精品免费观看| 1000部啪啪未满十八勿入下载| 久久国产成人亚洲精品影院老金| 亚洲av成人区国产精品| 91视频日本| 亚洲人成网网址在线看| 国产欧美另类久久精品蜜芽| 婷婷久久久亚洲欧洲日产国码AV| 色欲久久久天天天精品综合网| 久久精品免视看国产成人| 日韩狼人精品在线观看| 免费观看污视频网站| 激情在线网| 亚洲国产成熟视频在线多多| 四虎永久在线精品国产馆V视影院| 亚洲色av天天天天天天| 熟女精品国产一区二区三区| 国产99视频精品免费视频36| 91中文字幕一区在线| 天天澡天天狠天天天做| 亚洲精品tv久久久久久久| 岛国AV免费| 人妻少妇不满足中文字幕| 国产亚洲精品一区二区不卡|