劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

本文作者：楊曉凡

編輯：郭奕欣

2017-07-08 14:42

導(dǎo)語：優(yōu)秀的范式能讓有監(jiān)督學(xué)習(xí)的模型表現(xiàn)更上一層樓

雷鋒網(wǎng) AI 科技評論消息，微軟亞洲研究院（MSRA）劉鐵巖團(tuán)隊(duì)近日在arXiv上傳了一篇論文，論文標(biāo)題為“Dual Supervised Learning”（對偶監(jiān)督學(xué)習(xí)）。據(jù)了解，這篇論文已經(jīng)被即將于今年8月舉行的ICML接受。論文中展示了對偶監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)范式在機(jī)器雙語翻譯、圖像分類與生成、情感分析與分析三組任務(wù)中都可以為原模型帶來明顯的提升。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

ICML2017論文：對偶監(jiān)督學(xué)習(xí)

另一方面，去年微軟亞研有一篇NIPS論文“Dual Learning for Machine Translation”（用于機(jī)器翻譯的對偶學(xué)習(xí)），雷鋒網(wǎng)硬創(chuàng)公開課也曾邀請到論文作者之一的微軟亞研主管研究員秦濤博士給大家做了詳細(xì)的分享( 微軟亞洲研究院秦濤：對偶學(xué)習(xí)的對稱之美，秦濤博士同樣也是今年新論文的作者之一）。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

秦濤博士作客雷鋒網(wǎng)硬創(chuàng)公開課

那么，NIPS2016論文的“對偶學(xué)習(xí)”與今年ICML2017論文的“對偶監(jiān)督學(xué)習(xí)”有何異同點(diǎn)？對沒有接觸過的讀者，對偶學(xué)習(xí)又是怎樣的一種范式？雷鋒網(wǎng) AI 科技評論在本文中會先介紹和回顧對偶學(xué)習(xí)，然后再講解對偶監(jiān)督學(xué)習(xí)的新特點(diǎn)。

NIPS2016論文介紹的新范式——“對偶學(xué)習(xí)”

在 AI 發(fā)展面臨的關(guān)于數(shù)據(jù)、時間、解釋性、協(xié)作性的眾多挑戰(zhàn)中，對偶學(xué)習(xí)的提出主要是為了解決依賴大量數(shù)據(jù)的問題。相比標(biāo)簽傳播（Label Propagation）、多任務(wù)學(xué)習(xí)（Multi-task Learning）、遷移學(xué)習(xí)（Transfer Learning）這樣利用數(shù)據(jù)相似性的解決方法，對偶學(xué)習(xí)（Dual Learning）利用的是 AI 任務(wù)中自然出現(xiàn)的對稱性。比如：

機(jī)器翻譯，有英翻中和中翻英的對稱；
語音處理，需要語音轉(zhuǎn)文字（語音識別），也有文本轉(zhuǎn)語音（語音合成）的任務(wù)；
圖像理解，圖像描述（image captioning）與圖像生成（image generation）是一個對稱的過程；
對話任務(wù)，問題回答（Question answering）與問題生成（Question generation）；
搜索引擎，文本匹配查詢（Query-document matching）與廣告關(guān)鍵詞推薦服務(wù)（Query/keyword suggestion）

如上這些任務(wù)以往都是單獨(dú)訓(xùn)練的，而且要利用大量的有標(biāo)簽數(shù)據(jù)才能訓(xùn)練。那么如果考慮到任務(wù)的對稱性，一個英文句子被翻譯成英文，再從中文翻譯成英文，還能跟一開始的句子非常相近的話，就可以認(rèn)為“英翻中”和“中翻英”兩個翻譯器都表現(xiàn)很好；而且所用的句子還可以是無標(biāo)簽的。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

NIPS2016對偶學(xué)習(xí)論文的模型示意圖

如圖就是對偶學(xué)習(xí)的模型示意圖，主任務(wù) f 把無標(biāo)注英文句子 x 翻譯為中文 y，對偶任務(wù) g 把中文 y 翻譯回中文 x'。模型從過程中得到兩個反饋，一個部分反饋是來自懂中文的智能體，評價中文 y 的翻譯質(zhì)量如何；另一個反饋是來自懂英文的智能體，比較 x 和 x' 獲得反饋。這樣，一個流程結(jié)束以后，模型就可以獲得完整反饋。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

NIPS2016對偶學(xué)習(xí)論文的策略梯度示意圖

有了反饋，就可以把強(qiáng)化學(xué)習(xí)的一些方法直接用于訓(xùn)練更新模型 f 和 g 。論文中所用的方法為策略梯度 policy gradient，對主任務(wù) f 和對偶任務(wù) g 求梯度，增加好的行為出現(xiàn)的概率，降低不好的行為出現(xiàn)的概率。

另一方面，由于只有單一輸入，由兩個智能體自己產(chǎn)生反饋，不需要把翻譯結(jié)果與輸入對應(yīng)的標(biāo)簽對比，所以這是一種無監(jiān)督學(xué)習(xí)方法。

對偶學(xué)習(xí)的效果如何呢？在使用了1200萬個雙語標(biāo)注句的英法翻譯實(shí)驗(yàn)中，相比于2016年時效果最好的基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯算法（Neural Machine Translation），對偶學(xué)習(xí)只需要其中10%的雙語數(shù)據(jù)就可以達(dá)到NMT采用了全部數(shù)據(jù)進(jìn)行訓(xùn)練的準(zhǔn)確度。訓(xùn)練所需數(shù)據(jù)量可以減少90%，很好地達(dá)成了預(yù)期效果。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

NIPS對偶學(xué)習(xí)論文的訓(xùn)練結(jié)果示意圖

根據(jù)秦濤博士介紹，對偶學(xué)習(xí)有一個問題是很難冷啟動，即需要先對主任務(wù)和對偶任務(wù)的兩個智能體進(jìn)行一定的訓(xùn)練后才能夠利用對偶學(xué)習(xí)進(jìn)行聯(lián)合反饋訓(xùn)練，否則模型收斂會變得很慢。

ICML2017新論文——對偶監(jiān)督學(xué)習(xí)

既然以上的無監(jiān)督對偶學(xué)習(xí)有這么好的效果，要如何運(yùn)用于監(jiān)督學(xué)習(xí)中呢？

還是以翻譯為例，在監(jiān)督學(xué)習(xí)中，當(dāng)知道主任務(wù) f 應(yīng)該得到的正確翻譯為 y 之后，就可以用最大似然準(zhǔn)則更新 f，使 y 出現(xiàn)的概率越大越好。

對于對偶監(jiān)督學(xué)習(xí)，需要主任務(wù) f 和對偶任務(wù) g 都能出現(xiàn)正確翻譯 y 與 x，這樣就會存在一個聯(lián)合概率 P( x,y )。如果 f 與 g 的更新是同步的，通過 f 和 g 都可以單獨(dú)計(jì)算出這個聯(lián)合概率。但如果 f 和 g 是根據(jù)監(jiān)督學(xué)習(xí)分開訓(xùn)練的，就不能保證單獨(dú)計(jì)算出的聯(lián)合概率相同。

為了解決這個問題，論文中為對偶監(jiān)督學(xué)習(xí)增加了一項(xiàng)正則化項(xiàng)。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

ICML2017對偶監(jiān)督學(xué)習(xí)論文的模型示意圖

這個正則化項(xiàng)的含義是將 f 得到正確結(jié)果 y 和 g 得到正確結(jié)果 x 兩個概率的差值最小化，從而通過結(jié)構(gòu)的對稱性加強(qiáng)了監(jiān)督學(xué)習(xí)過程，讓兩個互為對稱的任務(wù)共同進(jìn)行學(xué)習(xí)。

在學(xué)習(xí)過程中共優(yōu)化三個損失函數(shù)：

1）從帶標(biāo)簽輸入 x 經(jīng)主任務(wù) f 得到 y 的對數(shù)似然

2）從對偶輸入 y 經(jīng)對偶任務(wù) g 得到 x 的對數(shù)似然

3）以上兩個對數(shù)似然的差值，即正則化項(xiàng)。

這與SVM正則化項(xiàng)的區(qū)別在于，SVM的正則化項(xiàng)與模型有關(guān)，與數(shù)據(jù)無關(guān)；但對偶監(jiān)督學(xué)習(xí)中討論的正則化像還與數(shù)據(jù)相關(guān)。由于具有了這樣的正則化項(xiàng)，每個訓(xùn)練數(shù)據(jù)都能夠參與到正則化項(xiàng)中，而且主任務(wù)、對偶任務(wù)的兩個模型可以互相影響。

根據(jù)優(yōu)化過程的特點(diǎn)，論文中還一并指出了對偶監(jiān)督學(xué)習(xí)的適用條件：

1）有兩個任務(wù)，它們之間具有對稱性

2）主任務(wù)和對偶任務(wù)都是可訓(xùn)練的

3）模型出現(xiàn)理想結(jié)果的經(jīng)驗(yàn)概率是可求的

如文章開頭所述，圖像、文本、語音相關(guān)的許多任務(wù)是滿足這些條件的。

對偶監(jiān)督學(xué)習(xí)的效果

論文中在機(jī)器翻譯、圖像分類、情感分析三種任務(wù)測試了對偶監(jiān)督學(xué)習(xí)的效果，都證明了可以帶來顯著的提升。

機(jī)器翻譯

論文中先分別對主任務(wù)、對偶任務(wù)的模型進(jìn)行一定訓(xùn)練后，用對偶監(jiān)督學(xué)習(xí)的方法進(jìn)行聯(lián)合訓(xùn)練。與目前翻譯效果最好的NMT與MRT神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯相比，BLEU分?jǐn)?shù)得到了進(jìn)一步提升。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

圖像分類

與機(jī)器翻譯不同，圖像分類與圖像生成的過程存在信息損失。這導(dǎo)致目前圖像生成的效果不盡如人意而且提高困難。根據(jù)對偶監(jiān)督學(xué)習(xí)能夠減少兩個任務(wù)間概率差值的特點(diǎn)，我們可以期待對偶監(jiān)督學(xué)習(xí)能夠更好地從標(biāo)簽恢復(fù)圖像。

表現(xiàn)對比中選用的基準(zhǔn)模型是PixelCNN++，不出意外地，基于CIFAR-10的bpd分?jǐn)?shù)從2.94進(jìn)步到了2.93，即便只有0.01的提高也非常難得。實(shí)際生成的圖像對比如下圖：

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

每一橫行的圖像是從同一個類別標(biāo)簽生成的結(jié)果；左邊五個來自基準(zhǔn)模型，右邊五個來自對偶監(jiān)督學(xué)習(xí)模型。圖像質(zhì)量有可見的提升，尤其對于第3、4、6行的鳥、貓、狗。

不止是生成，經(jīng)過對偶監(jiān)督學(xué)習(xí)訓(xùn)練后的 ResNet-32 和 ResNet-110 兩種不同復(fù)雜度的網(wǎng)絡(luò)識別效果也都得到了提升。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

情感分析

對句子做正向/負(fù)向情感分析，或者根據(jù)給定的正向/負(fù)向情感反向生成句子，這個過程中的信息損失非常嚴(yán)重，只留下了1bit的信息而已。論文中認(rèn)為對句子做情感分析的結(jié)果提升比較微小，這是其中的原因之一。基準(zhǔn)模型選用的是LSTM。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

不過到了反向生成句子的時候，經(jīng)過對偶監(jiān)督學(xué)習(xí)的模型展現(xiàn)出了強(qiáng)大的表現(xiàn)力，對簡單短句的使用變少了，并且選用的單詞、詞語、句式表達(dá)出的情感更強(qiáng)烈、更具體。

劉鐵巖團(tuán)隊(duì)ICML論文提出機(jī)器學(xué)習(xí)的新范式：對偶監(jiān)督學(xué)習(xí)

后續(xù)研究目標(biāo)

論文在結(jié)尾處表示，以上的例子已經(jīng)可以說明對偶監(jiān)督學(xué)習(xí)的提升效果，后續(xù)也會在更多任務(wù)中進(jìn)行嘗試（比如文本/語音轉(zhuǎn)換）。同時，如何把無標(biāo)簽對偶學(xué)習(xí)和對偶監(jiān)督學(xué)習(xí)結(jié)合起來，利用無標(biāo)簽數(shù)據(jù)繼續(xù)提升模型表現(xiàn)，以及嘗試把對偶監(jiān)督學(xué)習(xí)與對偶推理（dual inference）結(jié)合起來以便利用結(jié)構(gòu)對稱性來增強(qiáng)訓(xùn)練和推理過程也是劉鐵巖團(tuán)隊(duì)后續(xù)打算研究的方向。

論文地址：https://arxiv.org/abs/1707.00415 ，雷鋒網(wǎng) AI 科技評論編譯

0人收藏

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章