注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

本文作者： AI研習(xí)社-譯站

2019-02-18 10:22

導(dǎo)語(yǔ)：近十年以來(lái)，直到神經(jīng)機(jī)器翻譯系統(tǒng)的誕生之前，統(tǒng)計(jì)機(jī)器翻譯一直在機(jī)器翻譯領(lǐng)域占據(jù)著主要地位。

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：
Attn: Illustrated Attention
作者 | Raimi Karim
翻譯 | yata 校對(duì) | 鄧普斯?杰弗
審核 | 醬番梨整理 | Pita
原文鏈接：
https://towardsdatascience.com/attn-illustrated-attention-5ec4ad276ee3

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

近十年以來(lái)，直到神經(jīng)機(jī)器翻譯系統(tǒng)的誕生之前，統(tǒng)計(jì)機(jī)器翻譯一直在機(jī)器翻譯領(lǐng)域占據(jù)著主要地位。神經(jīng)機(jī)器翻譯模型作為一種新興的機(jī)器翻譯方法，其致力于構(gòu)建并訓(xùn)練出一個(gè)可以輸入文本并返回翻譯文本的大型神經(jīng)網(wǎng)絡(luò)。

Kalchbrenner and Blunsom (2013), Sutskever et. al (2014) 和Cho. et. al (2014b)等人，作為先驅(qū)首先提出了神經(jīng)機(jī)器翻譯框架，之后由Sutskever 等人提出了更廣為人知的序列到序列模型。我們這篇文章將基于序列到序列的框架，以及如何在此框架上構(gòu)建attention機(jī)制，來(lái)展開(kāi)講解。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 0.1: 輸入序列長(zhǎng)度為4的序列到序列的框架

在序列到序列模型中，其主要的思想在于使用兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建一個(gè)編碼器-解碼器的結(jié)構(gòu)：首先以其中一個(gè)RNN為構(gòu)成的編碼器，按時(shí)間順序一個(gè)一個(gè)讀入輸入的文字，之后便可以得到一個(gè)固定維度的向量；在這些輸入的基礎(chǔ)上，由另一個(gè)RNN構(gòu)成的解碼器按照時(shí)間順序再進(jìn)行一個(gè)一個(gè)的解碼，從而得到最后的翻譯。我們的解釋借鑒了[5]。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 0.2: 輸入序列長(zhǎng)度為64的序列到序列框架

序列到序列模型的主要問(wèn)題在于，編碼器的最后一個(gè)隱層狀態(tài)(見(jiàn)Fig.0.1中的兩個(gè)紅色節(jié)點(diǎn)),作為唯一的信息輸入到解碼器中來(lái)。而這最后一個(gè)隱層狀態(tài)向量就好像是全部輸入的一個(gè)數(shù)值匯總。所以當(dāng)輸入的文字很長(zhǎng)時(shí)(Fig.0.2)，僅僅利用一個(gè)匯總向量（期望他可以充分的總結(jié)輸入序列的所有信息），便希望可以輸出一個(gè)合理的翻譯文本，便顯得有些不合理，因?yàn)閰R總向量的表達(dá)能力的受限，這必然會(huì)導(dǎo)致對(duì)輸入文本災(zāi)難性的“遺忘”。這就好比給你一個(gè)由一百多個(gè)單詞組成的段落，然后希望你可以在閱讀完最后一個(gè)詞之后，立馬給出這個(gè)段落的翻譯，你可以做到嗎？

如果我們都做不到，我們也不應(yīng)該奢求解碼器能夠做到。那么我們?yōu)楹尾豢紤]讓解碼器使用編碼器部分每一個(gè)時(shí)刻的隱層狀態(tài)，而不是單單只是使用編碼器部分最后一個(gè)隱層狀態(tài)，這樣子我們應(yīng)該會(huì)得到更好的翻譯文本。這就要引入attention機(jī)制了。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig 0.3:在編碼器和解碼器中間加入attention機(jī)制。這里，在給出第一個(gè)翻譯詞匯之前，解碼器就已經(jīng)從解碼器得到了第一個(gè)時(shí)間步長(zhǎng)的輸入信息（初始化狀態(tài)）。

注意力作為編碼器和解碼器之間的接口，負(fù)責(zé)將編碼器部分每一個(gè)時(shí)刻的隱狀態(tài)提供給解碼器（其中不包括在Fig.0.3中的標(biāo)紅的隱狀態(tài)）。在這樣的設(shè)定下，模型才有能力去聚焦在輸入序列中有用的部分，并且從中學(xué)到輸入文本與輸出翻譯文本之間的對(duì)齊(alignment)。這對(duì)于模型有效的處理長(zhǎng)輸入句子十分有效。

定義：對(duì)齊

對(duì)齊的意思是將原始輸入文本中的片段與他們對(duì)應(yīng)輸出的翻譯文本片段，進(jìn)行匹配。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig.0.3:法文"la"與輸入序列之間的對(duì)齊分布在輸入序列中各個(gè)單詞上，但是主要在其中四個(gè)單詞："the"，"European","Economic"和"Area"。連線的顏色越深表示attention的score越大。

在[2]中的介紹我們可以直到，這里有種形式的attention.一種是，使用編碼器的所有隱層狀態(tài)，我們稱其為全局attention。相對(duì)的，只使用編碼器隱層狀態(tài)的子集來(lái)計(jì)算attention，我們將其稱為局部attention。在這篇文章中，我們討論的是全局attention。其中提到attention時(shí)大家就默認(rèn)為全局attention.

在這篇文章中，我們使用動(dòng)畫(huà)的形式進(jìn)行對(duì)attention的工作原理進(jìn)行總結(jié)，所以大家再也不用對(duì)著論文或者資料里的各種數(shù)學(xué)表達(dá)式發(fā)愁了。同時(shí)作為例證，我將介紹在過(guò)去五年里發(fā)表的四種神經(jīng)機(jī)器翻譯的框架。并且我將在文章中為對(duì)其中的一些概念理論進(jìn)行直觀推斷式的講解，所以大家要注意這些講解哦。

1.Attention:綜述

2.Attention:例子

3.總結(jié)

附錄：attention分?jǐn)?shù)計(jì)算方法

1.Attention:綜述

在我們討論attention如何使用之前，首先允許我使用直觀理解的方式，解釋如何將序列到序列模型運(yùn)用到翻譯任務(wù)上。

直觀理解：序列到序列模型

一名翻譯員從頭到尾的讀一段德語(yǔ)文本，一旦他讀完這段文本，便開(kāi)始將其逐詞的翻譯為英文。當(dāng)這段文本很長(zhǎng)時(shí)，他極有可能在翻譯過(guò)程中已經(jīng)忘記了這段文本之前的段落。

當(dāng)然，上面我們說(shuō)的只是一個(gè)簡(jiǎn)單的序列到序列模型。下面我將帶大家厘清在序列到序列+attention模型中attention層中計(jì)算的具體步驟。在這之前，讓我們首先對(duì)模型有一個(gè)直觀理解。

直觀理解：序列到序列+attention

一名翻譯員從頭到尾去讀一段德語(yǔ)文本，只是在讀的過(guò)程中，會(huì)記下來(lái)文本中涉及到的關(guān)鍵詞。這樣在之后翻譯工作時(shí)，他可以在翻譯每個(gè)德語(yǔ)單詞時(shí)借鑒他在之前已經(jīng)記下的關(guān)鍵詞。

attention通過(guò)向不同的單詞賦予不同的分?jǐn)?shù)來(lái)表征不同的關(guān)注程度。之后，將這些得到的分?jǐn)?shù)經(jīng)過(guò)softmax層(從而拿到歸一化的權(quán)重)，這樣我們就可以將編碼器階段所有的隱層狀態(tài)經(jīng)過(guò)加權(quán)和得到一個(gè)上下文向量。attention層具體的實(shí)現(xiàn)可以分解為如下四個(gè)步驟。

Step 0:準(zhǔn)備隱層狀態(tài)

我們要首先準(zhǔn)備好decoder的（當(dāng)前）隱層狀態(tài)(紅色)和所有可以拿到的編碼器隱層狀態(tài)(綠色)。在我們的例子中，我們有4個(gè)編碼器隱層狀態(tài)和一個(gè)當(dāng)前解碼器隱層狀態(tài)。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig.1.0 準(zhǔn)備關(guān)注

Step 1: 獲得對(duì)每個(gè)編碼器隱層狀態(tài)的分?jǐn)?shù)

分?jǐn)?shù)（標(biāo)量）可以通過(guò)分?jǐn)?shù)函數(shù)（或者叫做對(duì)齊分?jǐn)?shù)函數(shù)[2]或者對(duì)齊模型）得到。在這個(gè)例子中，我們使用解碼器和編碼器隱層狀態(tài)之間的點(diǎn)積作為我們的分?jǐn)?shù)計(jì)算函數(shù)。

附錄A中給了不同的分?jǐn)?shù)計(jì)算函數(shù)。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 1.1:分?jǐn)?shù)獲得

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

在上面這個(gè)例子中，我們?cè)诰幋a器隱層狀態(tài)[5, 0, 1]中得到了較高的分?jǐn)?shù)，這意味著下一個(gè)要翻譯的單詞將較大的收到這個(gè)隱層狀態(tài)的影響。

Step 2 : 將所有的分?jǐn)?shù)值通過(guò)一個(gè)softmax層

我們將這些分?jǐn)?shù)通過(guò)一個(gè)softmax層，這樣我們可以得到對(duì)應(yīng)的加起來(lái)為1的值。這些經(jīng)過(guò)了softmax層的分?jǐn)?shù)代表了[3,10]的注意力分布。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig.1.2 softmaxed 分?jǐn)?shù)

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

我們可以看到，在經(jīng)過(guò)了softmax的分?jǐn)?shù)score^，attention按我們的預(yù)期只分布在[5, 0, 1]上。實(shí)際上，這些數(shù)應(yīng)該是0到1之間的浮點(diǎn)數(shù)而不是0和1的二值數(shù)。

Step 3: 將每個(gè)編碼器隱狀態(tài)乘以softmax層之后的分?jǐn)?shù)值

通過(guò)將每個(gè)編碼器的隱層狀態(tài)乘上對(duì)應(yīng)的softmax之后的分?jǐn)?shù)值，我們就可以得到對(duì)齊向量[2]或者叫做標(biāo)注向量[1]。這就是對(duì)齊的機(jī)制。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 1.3: Get the alignment vectors

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

這里我們可以看到除了[5, 0, 1]之外的其他隱層狀態(tài)都因?yàn)槠浞謹(jǐn)?shù)小的原因降至0。這意味著我們可以認(rèn)為第一個(gè)被翻譯出的單詞應(yīng)該匹配著輸入單詞中的[5,0,1]編碼向量。

Step 4: 將所有的對(duì)齊向量相加

將所有的對(duì)齊向量相加即可得到最終的上下文向量[1,2]。一個(gè)上下文向量相當(dāng)于是之前所有步驟中的對(duì)齊向量的聚合信息。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 1.4: Get the context vector

Step 5: 將上下文向量輸入解碼器部分

（輸入解碼器的）方式由我們的框架設(shè)計(jì)所決定。之后我們將在Section 2a，2b，和2c中通過(guò)例子介紹這些框架如何在解碼器部分使用上下文向量信息。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 1.5: Feed the context vector to decoder

下面是整個(gè)動(dòng)態(tài)的過(guò)程。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例） Fig. 1.6: Attention

直觀理解：attention到底是如何有效的

答案：反向傳播，驚喜嗎？反向傳播會(huì)盡其可能的去讓輸出接近真實(shí)答案。它需要去不斷的調(diào)整RNN網(wǎng)絡(luò)中的權(quán)值以及對(duì)應(yīng)的函數(shù)方程中的權(quán)值，如果有需要的話。這些權(quán)重會(huì)去影響編碼器的隱層狀態(tài)和解碼器的隱層狀態(tài)，從而間接的去影響attention的分?jǐn)?shù)。

2. Attention：例子

我們?cè)谥暗恼鹿?jié)中已經(jīng)了解了序列到序列和序列到序列+attention兩種框架。在下一小節(jié)中，我們將詳細(xì)的去了解3個(gè)在序列到序列基礎(chǔ)上運(yùn)用attention機(jī)制的神經(jīng)機(jī)器翻譯模型。為了讓大家更為完整的了解（他們的具體性能），我將附上他們的雙語(yǔ)評(píng)估分?jǐn)?shù)(BLEU)——一種在真實(shí)序列基礎(chǔ)上評(píng)價(jià)合成序列的指標(biāo)。

2a. Bahdanau 等(2015)[1]

這種attention的計(jì)算實(shí)現(xiàn)是基礎(chǔ)attention計(jì)算的來(lái)源之一。作者在論文題目"Neural Machine Translation by Learning to Jointly Align and Translate"中用了"align"(對(duì)齊)這和詞，以此來(lái)表示在訓(xùn)練模型時(shí)去調(diào)整跟分?jǐn)?shù)直接相關(guān)的權(quán)重。下面是對(duì)此框架的一些要點(diǎn)總結(jié)：

1.編碼器是由雙向（前向+反向）的門限循環(huán)單元（BiGRU）。解碼器是由一個(gè)單向的GRU組成，它的初始化狀態(tài)是由編碼器的反向GRU的最后一個(gè)隱層狀態(tài)變換而來(lái)。(這一點(diǎn)沒(méi)有在下面的圖中體現(xiàn))

2.attention層分?jǐn)?shù)的計(jì)算方式是加/串聯(lián)

3.機(jī)器碼器下一個(gè)時(shí)刻的輸入是由上一步解碼器的輸出(粉色)和當(dāng)前時(shí)刻的上下文向量（深綠）串聯(lián)。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 2a: NMT from Bahdanau et. al. Encoder is a BiGRU, decoder is a GRU.

作者在WMT14英-法數(shù)據(jù)集上BLEU值達(dá)到了26.75。

直觀理解：由雙向編碼器組成的序列到序列模型+attention機(jī)制

譯者A像之前我們說(shuō)的那樣邊讀邊寫下關(guān)鍵詞。譯者B(他屬于高級(jí)譯者，有可以從后往前讀文章并可以進(jìn)行翻譯的能力)從最后一個(gè)詞開(kāi)始從后往前閱讀，并且也做關(guān)鍵詞的記錄。這樣兩個(gè)人會(huì)不斷的討論他們閱讀到的內(nèi)容，一旦閱讀完整段德語(yǔ)文本，譯者B被要求依據(jù)他們之前討論的內(nèi)容以及他們共同整理的關(guān)鍵詞，將德文逐詞的翻譯為英文。

譯者A是前向RNN，譯者B是反向RNN。

2b. Luong等(2015)[2]

Effective Approaches to Attention-based Neural Machine Translation的作者將Bahdanau等的框架進(jìn)行了泛化，并且進(jìn)行了簡(jiǎn)化。下面我們看下它的主要結(jié)構(gòu)：

1.編碼器是一個(gè)兩層的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)。解碼器也有著相同的網(wǎng)絡(luò)框架，同時(shí)它的隱狀態(tài)的初始化來(lái)自編碼器的最后一個(gè)隱層狀態(tài)。

2.他們?cè)趯?shí)驗(yàn)過(guò)的分?jǐn)?shù)方程有（i）加/串聯(lián)，（ii）點(diǎn)乘，（iii）基于位置的和(iv)一般化的。

3.當(dāng)前時(shí)刻解碼器的最終輸出（粉色），由當(dāng)前時(shí)刻解碼器部分的輸出（譯者注：解碼器部分LSTM的輸出或隱層狀態(tài)）和當(dāng)前時(shí)刻計(jì)算得到的上下文向量進(jìn)行串聯(lián)，之后經(jīng)過(guò)一層全連接網(wǎng)絡(luò)得到。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 2b: NMT from Luong et. al. Encoder is a 2 layer LSTM, likewise for decoder.

此模型在WMT15 英語(yǔ)-法語(yǔ)數(shù)據(jù)集上BLEU分?jǐn)?shù)達(dá)到了25.9.

直觀理解：帶有兩層（LSTM）堆疊編碼器的序列到序列模型 + attention

譯者A從前至后閱讀德語(yǔ)文本，并寫下遇到的關(guān)鍵詞。同樣的，譯者B(比譯者A的級(jí)別要高)同樣閱讀這段德語(yǔ)文本，并且記下關(guān)鍵詞。注意在這個(gè)過(guò)程中，譯者A每讀一個(gè)詞就向譯者A進(jìn)行匯報(bào)。當(dāng)文本閱讀結(jié)束后。兩位譯者會(huì)基于他們之前共同得到的關(guān)鍵詞進(jìn)行逐詞的翻譯。

2c. 谷歌的神經(jīng)機(jī)器翻譯模型(GNMT)[9]

我們中的大多數(shù)應(yīng)該都曾經(jīng)以各種形式使用過(guò)谷歌翻譯，所以我覺(jué)得十分有必要來(lái)討論2016年實(shí)現(xiàn)的谷歌神經(jīng)機(jī)器翻譯系統(tǒng)。GNMT是我們看到的前兩個(gè)例子的結(jié)合（深受第一個(gè)例子[1]的啟發(fā)）。

1.編碼器部分由八層LSTM堆疊而成，其中第一層是雙向的（雙向的輸出進(jìn)行串聯(lián)），并且從第三層開(kāi)始會(huì)進(jìn)行連續(xù)的殘差連接。解碼器部分由8層單向的LSTM堆疊而組成。

2.分?jǐn)?shù)計(jì)算函數(shù)使用的加/串聯(lián)，和文獻(xiàn)[1]一樣。

3.同樣的，和文獻(xiàn)[1]相同，解碼器當(dāng)前時(shí)刻的輸入由上一個(gè)時(shí)刻解碼器的輸出（粉色）和當(dāng)前時(shí)刻的上下文向量(深綠)串聯(lián)而得。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例）

Fig. 2c: Google’s NMT for Google Translate. Skip connections are denoted by curved arrows. *Note that the LSTM cells only show the hidden state and input; it does not show the cell state input.

該模型在WMT14英-法數(shù)據(jù)庫(kù)上BLEU分?jǐn)?shù)達(dá)到了38.95，在WMT14英-德數(shù)據(jù)庫(kù)上BLEU的值達(dá)到了24.17.

直觀理解：GNMT——有八層LSTM堆疊而成編碼器的序列到序列模型（+雙向+殘差連接）+attention

八個(gè)譯者依次坐好，順序是從A到B直到H。每個(gè)譯者都讀著相同的德語(yǔ)文本。在每個(gè)詞上，譯者A向譯者B分享他的發(fā)現(xiàn)，譯者B會(huì)改善得到的信息并將它分享給譯者C，重復(fù)這樣的過(guò)程直到告訴譯者H。同樣的，譯者H會(huì)在讀這段德文文本時(shí)，基于它獲得的信息寫下相關(guān)的關(guān)鍵詞。

一旦每個(gè)人都讀完了這段德文文本，譯者A會(huì)被告知去翻譯第一個(gè)詞。首先他開(kāi)始回想，然后他將他的答案分享給B，B改進(jìn)答案后分享給C,重復(fù)這個(gè)過(guò)程直到傳遞給了H。然后譯者H會(huì)基于他得到的答案和之前記錄下的關(guān)鍵詞，寫下第一個(gè)翻譯出來(lái)的單詞。他會(huì)重復(fù)這個(gè)過(guò)程直到整個(gè)翻譯內(nèi)容結(jié)束。

3. 總結(jié)

這里我們對(duì)你在這篇文章里見(jiàn)過(guò)的所有架構(gòu)做一個(gè)快速的總結(jié)。

序列到序列模型
序列到序列模型 + attention
有雙向編碼器的序列到序列模型 + attention
有兩層（lstm）堆疊編碼器的序列到序列模型 + attention
GNMT-有八層堆疊編碼器的序列到序列模型（+ 雙向 + 殘差）+attention。

以上就是所有的內(nèi)容。在下一篇博客中，我將為你講述什么是self-attention，并且講述它是怎樣應(yīng)用到谷歌的Transformer和self-Attention對(duì)抗神經(jīng)網(wǎng)絡(luò)模型上的。請(qǐng)密切關(guān)注我的空間！

附錄：分?jǐn)?shù)函數(shù)

下面是Lilian Weng編輯的分?jǐn)?shù)函數(shù)中的一部分。加/串聯(lián) 和點(diǎn)乘在這篇文章中已經(jīng)被提及。其中包含了點(diǎn)乘操作（點(diǎn)乘，余弦距離等）的分?jǐn)?shù)函數(shù)，其主旨是為了度量?jī)蓚€(gè)向量之間的相似性。對(duì)于使用前饋神經(jīng)網(wǎng)絡(luò)的分?jǐn)?shù)函數(shù)，其主旨是對(duì)翻譯譯文的對(duì)齊權(quán)重進(jìn)行建模。

注意力的動(dòng)畫(huà)解析（以機(jī)器翻譯為例） Fig. A0: Summary of score functions