「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

本文作者： MrBear

編輯：幸麗娟

2019-07-11 10:11

專題：ACL 2019

導語：有實驗論證的加持，比過去的解釋更為可靠！

雷鋒網 AI 科技評論按：在近些年的自然語言處理研究中，「詞類比」是一個十分有趣的現象，最經典的例子莫過于「國王-男人+女人=皇后」。然而，如何將神經網路的黑盒拆開從而解釋這一神奇的現象，一直都是有待探索的有趣的科學問題。近日，ACL 2019 上一篇名為「Towards Understanding Linear Word Analogies」（https://arxiv.org/abs/1810.04882）的論文對該問題進行了探究，從 csPMI 理論的角度對此進行了解釋。

眾所周知，詞向量有一個神奇的特性，那就是：我們往往可以通過向量的算術來實現單詞的類比。最著名的例子就是：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

但這是為什么呢？為什么算術運算符適用于像「word2vec」這樣的非線性模型生成的向量呢？在向量空間中，要想通過訓練語料庫使這些類比成立需要滿足什么條件？

令人驚訝的是，很少有理論試圖解釋這種現象，而那些現有的理論對詞頻或向量空間做出了很強的假設。在我們發表在 ACL 2019 上的論文「Towards Understanding Linear Word Analogies」（http://arxiv.org/abs/1810.04882）中，我們在不做出這種強假設的條件下，針對「GloVe」和「基于負采樣的skipgram」兩種嵌入模型提出了詞類比運算的正式解釋。反過來，我們的理論也提供了：

1. 在 SGNS 和 GloVe 空間中關于歐幾里得距離的第一個基于信息論的解釋；

2. 使用加法構成 SGNS 詞向量的新依據；

3. 「GloVe」模型原始論文（https://nlp.stanford.edu/pubs/glove.pdf）中提出的對于詞類比的直觀解釋的正式證明。

最重要的一點是，我們的理論有實驗論證的加持，比過去的解釋更為可靠。

過去的解釋的不足之處

在 2016 年 TACL 的一篇論文「A Latent Variable Model Approach to PMI-based Word Embeddings」中，論文作者提出了潛變量模型（https://arxiv.org/abs/1502.03520），這也是研究者首次嘗試對詞類比算術進行嚴格解釋。Gittens 等人在論文「Skip-Gram – Zipf + Uniform = Vector Additivity」（https://www.aclweb.org/anthology/P17-1007）中對此理論提出了批評，他們認為該理論假設詞向量是一種先驗概率，并且是通過隨機地對從單位曲面上采樣得到的向量進行放縮生成的（或者說具有與該過程一致的屬性）。潛變量模型也依賴于單詞向量的各向同性，即使已經有實證研究證明 SGNS 向量通常不具有這種性質（相關工作可參考：https://www.aclweb.org/anthology/D17-1308）。

2017 年 ACL 的一篇論文「Skip-Gram – Zipf + Uniform = Vector Additivity」提出的釋義模型（paraphrase model，https://www.aclweb.org/anthology/P17-1007）認為，如果 p(w|c_1,...,c_m) = p(w|c) 成立，則上下文單詞序列 C={c_1,...,c_m}在語義上與某個單詞 c 等價。如果詞頻符合一個均勻分布，那么我們可以將單詞序列 C 的釋義寫作其上下文向量的和；向量的算術與該集合中的容斥（inclusion or exclusion）相對應。然而，該論文的作者承認該假設有些不切實際：詞頻往往遵循一個齊夫分布（Zipf distribution），該分布與標準分布相去甚遠。最近一份發表在 ICML 2019 上的工作（https://arxiv.org/pdf/1901.09813.pdf）在完全不考慮 SGNS 中負采樣的影響的情況下，對此假設進行變通。

詞類比的結構

最廣為接受的看法是，詞類比是形如「a 之于 b，相當于 x 之于 y」的聲明，也就是說 a 和 x 經過相同的變換后會分別得到 b 和 y，反之亦然。由于這是一個可逆變換，我們可以將其更形式化地定義為：詞類比 f 是一種在一組有序單詞對 S 上成立的可逆變換，當且僅「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 。當 f 可以表示為如的形式時，我們就稱其為一個線性詞類比。我們將對這種線性詞類比（例如，）進行進一步的解釋。當它們恰好成立時，它們會（根據上述定義）在向量空間中形成一個平行四邊形結構：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

這樣的平行四邊形具備一些我們可以利用的實用屬性。例如，一個四邊形是平行四邊形，當且僅當每一組對邊長度都相等（而且在跟高維的空間中，所有四個頂點共面）。這意味著：

一個線性詞類比在一組有序單詞對 S 上成立，當且僅當對于每一對（x，y）單詞對，有「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 等；對于每兩對單詞對（a，b）和（x，y）有，S 中所有的單詞的向量共面。

解釋內積

為了明確解釋上述條件的意義，我們需要能夠解釋兩個單詞向量之間的內積（即點積）。

然而，現有的文獻只告訴我們如何解釋一個單詞和一個上下文向量之間的內積。不妨回想一下，SGNS 和 GloVe 為每個單詞創建了兩種表征，其中一種保證針對于該單詞是目標單詞的情況，另一種表征針對于該單詞是上下文單詞的情況（即該單詞在其它單詞的上下文窗口中）。后一種表征被稱為「上下文向量」，通常會在訓練后被刪除。

我們可以明確解釋一個單詞和上下文向量的內積，因為即使 SGNS 和 GloVe 實際上是迭代地學習向量，他們也會隱式地分解一個包含共現統計量的「單詞-上下文」矩陣。當分解后的矩陣可以被完美地重建時，「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 為單詞向量，為相應的上下文向量：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

第一個等式是 GloVe（https://nlp.stanford.edu/pubs/glove.pdf）的局部目標，其中「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 代表共現次數，b_x，b_y 代表學到的每個單詞的偏置。第二個等式由 Levy 和 Goldberg 提出（https://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf），他們證明了 SGNS 隱式地對「單詞-上下文」對的點互信息（PMI，https://en.wikipedia.org/wiki/Pointwise_mutual_information）矩陣進行了分解，并減去了負樣本個數 k 的對數。由于被分解的矩陣是對稱的，我們有

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 。

上下文空間中的類比

利用這些等式和分解后的「單詞-上下文」矩陣的對稱性，我們證明了：任何在單詞空間中成立的線性類比 f，都有一個相應的在上下文空間中成立的線性類比 g。具體而言：

一個在無重建誤差的 SGNS 或 GloVe 單詞空間中的有序對 S 上的線性類比成立，當且僅當在相應的上下文空間中的有序對 S 上存在，使得。

這意味著我們可以將「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 寫作和的內積乘以 1/λ，從而使其更具有可解釋性。

線性詞類比何時成立？

現在，我們知道了線性類比在向量空間中成立所需要滿足的條件，以及如何解釋兩個單詞向量的內積。

這意味著我們現在可以使用上述的 SGNS 或 GloVe 的等式，重寫這些關于訓練語料庫的統計量的條件。無論我們選擇哪個等式，我們最終都會運用到共現偏移點互信息定理（或簡稱 csPMI 定理）。值得一提的是，即使 SGNS 和 GloVe 是完全不同的嵌入模型，類比現象在其向量空間中出現的條件是相同的！

共現偏移點互信息定理（csPMI）
令 W 為無重建誤差的 SGNS 或 GloVe 單詞向量空間，M 為 SGNS 或 GloVe 隱式分解得到的「單詞-上下文」矩陣，S 為一組有序對，滿足 |S|>1，且 S 中的所有單詞都在 W 向量空間中有一個對應的向量。

一個線性類別 f 在單詞對 S 上成立，當且僅當：
每個（x，y）單詞對的 csPMI（x，y）相等
對于每兩個單詞對（x，y），（a，b），有 csPMI（a，x）=csPMI（b，y）
對于每兩個單詞對，是線性相關的

例如，要使「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 在一個無噪聲的 SGNS 或 GloVe 空間中成立

我們需要訓練語料庫滿足下面的條件：

csPMI(king, queen) = csPMI(man, woman)
csPMI(king, man) = csPMI(queen, woman)
分解后的「單詞-上下文」矩陣中的四個單詞的行向量共面

對噪聲的魯棒性

實際上，即使在有噪聲的情況下，線性詞類比也是成立的。這是為什么呢？

1. 向量相等的定義實際上較為寬松。一個類比任務「(a,?)::(x,y)」可以通過尋找最接近「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 的單詞來解決（不包括是可能的答案的情況）。即使最終找到的答案可能并不精確，也并不在由

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 定義的平面上，但是我們仍然可以找到正確的答案。

2. 盡管該定理假設所有的單詞對都沒有重建誤差，如果我們不考慮共面性的約束，要想使得 f 在有序對 S上恰好成立，只有「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 需要被重建。

3. 類比只在頻繁出現的單詞對上成立，這樣就可以使噪聲更少。例如，在維基百科中，國家及其首都的類比的中位數為 3436.5，該類比的準確率高達 95.4%；而國家及其貨幣的類比的中位數僅為 19，期準確率則只有 9.2%。

影響

直覺一直都是正確的！

提出原始的 GloVe 模型的論文（https://nlp.stanford.edu/pubs/glove.pdf）推測：形如「a 之于 b，相當于 x 之于 y」的類比成立，當且僅當對于詞匯表中的所有單詞 ω，有：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

盡管缺乏正式的證明，但這一直被認為是對詞類比的直觀解釋。在我們的論文中，我們證明了這個推測確實是正確的（至少對于 SGNS 是正確的）。

向量加法形式的詞類比

通過引入零向量φ（在任意空間中映射到模為零向量）的概念，我們可以將向量加法「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 設計成在上的線性類比。如果 z 在單詞表中，則有，其中是與模型相關的常量。這反過來意味著：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

這表明，增加兩個 SGNS 向量隱式地降低了出現頻率更高的詞的權重，因為加權方案，例如 SIF（http://www.offconvex.org/2018/06/17/textembeddings/）、TF-IDF 需要視情況而定。比如說，如果將代表「x=’the’」和「y=’apple’」的向量相加，從而創建一個代表「z=’the_apple’」的向量。而且如果這實際上是單詞表中的一項，我們希望有 csPMI(‘the_apple’，‘apple’) > csPMI(‘the_apple’，‘the’)。盡管事實上，大多數雙字詞并不存在于單詞表中，但這有助于解釋經驗性的觀測結果（https://www.cs.cmu.edu/~jwieting/wieting2016ICLR.pdf）：平均單詞向量是一種非常有效的組合單詞的方法。

解釋歐幾里得距離

存在「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 ，使得對于任意兩個在無噪聲的 SGNS 或 GloVe 空間中的單詞 x 和 y，有：

「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 。

平方后的兩個單詞之間的歐幾里得距離是他們的負 csPMI 的遞減線性函數。這是很直觀的：通過 csPMI 進行度量時，在訓練語料庫中越相似的兩個單詞的詞向量之間的距離就越小。盡管如此，據我們所知，這還是第一次從信息論的角度解釋單詞向量空間中的歐幾里得距離。

實驗證據

正如前面提到的，之前的理論的一個關鍵問題是只有很少（如果有的話）的實驗證據能夠支撐它們。下面，我們展示了兩個實驗中的發現，這兩個發現為我們的研究提供了證據。

估計 csPMI

根據 csPMI 定理，如果一個類比下號在一組無噪聲單詞向量空間中的單詞對上成立，那么每一對單詞都具有相同的 csPMI 值。為了檢驗這一點，我們計算了維基百科中共現的詞數，并計算了 word2vec 論文中必須成立的單詞對的類比的平均 csPMI 值（例如，對于「首都-國家」單詞對來說，有 {(Paris, France)、(Berlin, Germany)} 成立）。接著，我們試圖使用在維基百科數據上訓練的 SGNS 向量，通過傳統的最小化余弦距離的方式，對這些類比進行求解。「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019

在上面的表格中，我們可以看到：

1. 當 csPMI 的方差較小時，類比的解的準確率更高（皮爾遜相關系數 r=-0.70）。這是因為當幾何平移性相同、并因此使得 csPMI 的值相同時，類比更有可能更有可能在一組單詞對上成立。

2. 相似的類比（例如「首都-國家」和「首都-平民-國家」）具有相似的平均csPMI 值。我們的理論暗示了這一點（因為相似的類比有相似的平移向量）。

3. 平均 csPMI 的變化反映了類比類型的變化，從地理信息（紅色）到時態（紫色）再到形容詞（藍色）。唯一的異常值是「currency」（貨幣），它具有很高的 csPMI 方差、非常低的準確率，而且單詞對很少共同出現在維基百科中。還需注意的是，盡管類比于平均 csPMI 的變化情況非常一致，但是它們與平均 PMI 并沒有關系。

歐幾里得距離和 csPMI

為了檢驗 csPMI 定理對歐幾里得距離的解釋，我們繪制了在維基百科數據上訓練的 SGNS 向量的以「國王-男人+女人=皇后」背后的詞類比原理究竟為何？| ACL 2019 為橫坐標，以為縱坐標的圖像。

正如預期的那樣，橫縱坐標之間有一個較強的正相關關系（皮爾遜相關系數 r=0.502）；兩個單詞越相似（正如 csPMI 定義的那樣），二者詞向量之間的歐幾里得距離越小。在歸一化單詞空間中，相關性也有這么強（皮爾遜相關系數 r=0.514）。

結語

在無噪聲的 SGNS 或 Glove 空間中，線性類比在一組單詞對上成立，當且僅當對于每個單詞和任意兩個單詞對來說，它們在分解出的「單詞-上下文」矩陣中的行向量共面的情況下，共現偏移點互信息（csPMI）相同。

反過來，這再次證明了人們長期以來對于「類比」現象為何成立的直覺，有助于解釋為什么向量加法是一種很好的組合單詞的方法，并對詞向量空間中的歐幾里得距離提出了一種新的解釋。于過去的詞類比算法理論不同，本文有充足的實驗證據支撐 csPMI 定理，從而使其更站得住腳。

via https://kawine.github.io/blog/nlp/2019/06/21/word-analogies.html 雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

專題

ACL 2019

本專題其他文章

MrBear

知情人士

發私信

當月熱門文章