NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

本文作者： skura

編輯：汪思穎

2018-12-19 13:01

專題：NeurIPS 2018

導語：2017 年在 NeurIPS 上發表的論文在 2018 年引用量超過 100 的有 19 篇，attention is all your need 占榜首~

雷鋒網 AI 科技評論按，12 月上旬，NeurIPS 2018 在加拿大蒙特利爾會展中心（Palais des Congrès de Montréal）成功舉辦，雷鋒網對此進行了報道。今年的會議在主題活動、投稿論文數量和參會人數上，相比往年都上了一個新臺階。NeurIPS 2018 吸引了近九千人參加，最終 1010 篇論文被接收，其中，有四篇論文被評為最佳論文，接收的覆蓋了十大研究領域。

看完新論文，別忘舊論文。日前，學術頭條對入選 NeurIPS 2017 的論文在 2017.12 至 2018.12 之間的引用量進行了統計，引用量超過 100 的論文有 19 篇，論文名單如下：

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

可以看到，引用量排名前三的論文分別是 Attention Is All You Need、Improved Training of Wasserstein GANs 和 Dynamic Routing Between Capsules。此前，雷鋒網對這幾篇論文也有過解讀，今天，就和大家一起再復習下吧。

Attention Is All You Need

這是谷歌與多倫多大學等高校合作發表的一篇論文，他們提出了一種新的網絡框架——Transformer。Transformer 是完全基于注意力機制（attention mechanism）的網絡框架，放棄了 RNN 和 CNN 模型。

眾所周知，在編碼-解碼框架中，主流的序列傳導模型都是基于 RNN 或者 CNN，其中能完美連接編碼器和解碼器的是注意力機制。而谷歌提出的這一新框架 Transformer，則是完全基于注意力機制。

Transformer 用于執行翻譯任務，實驗表明，這一模型表現極好，可并行化，并且大大減少了訓練時間。Transformer 在 WMT 2014 英德翻譯任務上實現了 28.4 BLEU，改善了現有的最佳成績（包括超過 2 個 BLEU 的集合模型），在 WMT 2014 英法翻譯任務中，建立了一個新的單一模式，在八個 GPU 上訓練了 3.5 天后，最好的 BLEU 得分為41.0，這在訓練成本最小的情況下達到了最佳性能。由 Transformer 泛化的模型成功應用于其他任務，例如在大量數據集和有限數據集中訓練英語成分句法解析的任務。

注意力機制是序列模型和傳導模型的結合，在不考慮輸入輸出序列距離的前提下允許模型相互依賴，有時（但是很少的情況），注意力機制會和 RNN 結合。

模型結構如下：

編碼器：編碼器由 6 個完全的層堆棧而成，每一層都有兩個子層。第一個子層是多頭的 self-attention 機制，第二層是一層簡單的前饋網絡全連接層。在每一層子層都有 residual 和歸一化。

解碼器：解碼器也是由 6 個完全相同的層堆棧而成，每一層有三個子層，在編碼棧的輸出處作為多頭的 attention 機制。

注意（attention）：功能是將 Query 和一組鍵-值對映射到輸出，那么包括 query、鍵、值及輸出就都成為了向量。輸出是值的權重加和，而權重則是由值對應的 query 和鍵計算而得。

Improved Training of Wasserstein GANs

在該論文中，蒙特利爾大學的研究者對 WGAN 進行改進，提出了一種替代 WGAN 判別器中權重剪枝的方法。

論文摘要

生成對抗網絡（GAN）將生成問題當作兩個對抗網絡的博弈：生成網絡從給定噪聲中產生合成數據，判別網絡分辨生成器的的輸出和真實數據。GAN 可以生成視覺上吸引人的圖片，但是網絡通常很難訓練。前段時間，Arjovsky 等研究者對 GAN 值函數的收斂性進行了深入的分析，并提出了 Wasserstein GAN（WGAN），利用 Wasserstein 距離產生一個比 Jensen-Shannon 發散值函數有更好的理論上的性質的值函數。但是仍然沒能完全解決 GAN 訓練穩定性的問題。

所做工作：

通過小數據集上的實驗，概述了判別器中的權重剪枝是如何導致影響穩定性和性能的病態行為的。

提出具有梯度懲罰的 WGAN（WGAN with gradient penalty），從而避免同樣的問題。

展示該方法相比標準 WGAN 擁有更快的收斂速度，并能生成更高質量的樣本。

展示該方法如何提供穩定的 GAN 訓練：幾乎不需要超參數調參，成功訓練多種針對圖片生成和語言模型的 GAN 架構。

WGAN 的 critic 函數對輸入的梯度相比于 GAN 的更好，因此對生成器的優化更簡單。另外，WGAN 的值函數是與生成樣本的質量相關的，這個性質是 GAN 所沒有的。WGAN 的一個問題是如何高效地在 critic 上應用 Lipschitz 約束，Arjovsky 提出了權重剪枝的方法。但權重剪枝會導致最優化困難。在權重剪枝約束下，大多數神經網絡架構只有在學習極其簡單地函數時才能達到 k 地最大梯度范數。因此，通過權重剪枝來實現 k-Lipschitz 約束將會導致 critic 偏向更簡單的函數。如下圖所示，在小型數據集上，權重剪枝不能捕捉到數據分布的高階矩。

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

由于在 WGAN 中使用權重剪枝可能會導致不良結果，研究者考慮在訓練目標上使用 Lipschitz 約束的一種替代方法：一個可微的函數是 1-Lipschitz，當且僅當它的梯度具有小于或等于 1 的范數時。因此，可以直接約束 critic 函數對其輸入的梯度范數。新的 critic 函數為：

NeurIPS 2017 論文 2018 年引用量排名揭曉，這里是排名前三的論文解讀

使用 GAN 構建語言模型是一項富有挑戰的任務，很大程度上是因為生成器中離散的輸入輸出序列很難進行反向傳播。先前的 GAN 語言模型通常憑借預訓練或者與監督最大似然方法聯合訓練。相比之下，使用該論文的方法，不需采用復雜的通過離散變量反向傳播的方法，也不需要最大似然訓練或 fine-tune 結構。該方法在 Google Billion Word 數據集上訓練了一個字符級的 GAN 語言模型。生成器是一個簡單的 CNN 架構，通過 1D 卷積將 latent vector 轉換為 32 個 one-hot 字符向量的序列。

該文提供了一種訓練 GAN 的穩定的算法，能夠更好的探索哪種架構能夠得到最好的生成模型性能。該方法也打開了使用大規模圖像或語言數據集訓練以得到更強的模型性能的大門。

本論文在github上開源了代碼：github

本論文同時也提供了詳細的數學證明，以及更多的示例，進一步了解請閱讀原論文：Improved Training of Wasserstein GANs

Dynamic Routing Between Capsules

為了避免網絡結構的雜亂無章，Hinton 提出把關注同一個類別或者同一個屬性的神經元打包集合在一起，好像膠囊一樣。在神經網絡工作時，這些膠囊間的通路形成稀疏激活的樹狀結構（整個樹中只有部分路徑上的膠囊被激活），從而形成了他的 Capsule 理論。Capsule 也就具有更好的解釋性。

Capsule 這樣的網絡結構在符合人們「一次認知多個屬性」的直觀感受的同時，也會帶來另一個直觀的問題，那就是不同的膠囊應該如何訓練、又如何讓網絡自己決定膠囊間的激活關系。Hinton 這篇論文解決的重點問題就是不同膠囊間連接權重（路由）的學習。

解決路由問題

首先，每個層中的神經元分組形成不同的膠囊，每個膠囊有一個「活動向量」activity vector，它是這個膠囊對于它關注的類別或者屬性的表征。樹結構中的每個節點就對應著一個活動的膠囊。通過一個迭代路由的過程，每個活動的膠囊都會從高一層網絡中的膠囊中選擇一個，讓它成為自己的母節點。對于高階的視覺系統來說，這樣的迭代過程就很有潛力解決一個物體的部分如何層層組合成整體的問題。

對于實體在網絡中的表征，眾多屬性中有一個屬性比較特殊，那就是它出現的概率（網絡檢測到某一類物體出現的置信度）。一般典型的方式是用一個單獨的、輸出 0 到 1 之間的回歸單元來表示，0 就是沒出現，1 就是出現了。在這篇論文中，Hinton 想用活動向量同時表示一個實體是否出現以及這個實體的屬性。他的做法是用向量不同維度上的值分別表示不同的屬性，然后用整個向量的模表示這個實體出現的概率。為了保證向量的長度，也就是實體出現的概率不超過 1，向量會通過一個非線性計算進行標準化，這樣實體的不同屬性也就實際上體現為了這個向量在高維空間中的方向。

采用這樣的活動向量有一個很大的好處，就是可以幫助低層級的膠囊選擇自己連接到哪個高層級的膠囊。具體做法是，一開始低層級的膠囊會給所有高層級的膠囊提供輸入；然后這個低層級的膠囊會把自己的輸出和一個權重矩陣相乘，得到一個預測向量。如果預測向量和某個高層級膠囊的輸出向量的標量積更大，就可以形成從上而下的反饋，提高這兩個膠囊間的耦合系數，降低低層級膠囊和其它高層級膠囊間的耦合系數。進行幾次迭代后，貢獻更大的低層級膠囊和接收它的貢獻的高層級膠囊之間的連接就會占越來越重要的位置。

在論文作者們看來，這種「一致性路由」（routing-by-agreement）的方法要比之前最大池化之類只保留了唯一一個最活躍的特征的路由方法有效得多。

網絡構建

作者們構建了一個簡單的 CapsNet。除最后一層外，網絡的各層都是卷積層，但它們現在都是「膠囊」的層，其中用向量輸出代替了 CNN 的標量特征輸出、用一致性路由代替了最大池化。與 CNN 類似，更高層的網絡觀察了圖像中更大的范圍，不過由于不再是最大池化，所以位置信息一直都得到了保留。對于較低的層，空間位置的判斷也只需要看是哪些膠囊被激活了。

這個網絡中最底層的多維度膠囊結構就展現出了不同的特性，它們起到的作用就像傳統計算機圖形渲染中的不同元素一樣，每一個膠囊關注自己的一部分特征。這和目前的計算機視覺任務中，把圖像中不同空間位置的元素組合起來形成整體理解（或者說圖像中的每個區域都會首先激活整個網絡然后再進行組合）具有截然不同的計算特性。在底層的膠囊之后連接了 PrimaryCaps 層和 DigitCaps 層。

膠囊效果的討論

在論文最后，作者們對膠囊的表現進行了討論。他們認為，由于膠囊具有分別處理不同屬性的能力，相比于 CNN 可以提高對圖像變換的健壯性，在圖像分割中也會有出色的表現。膠囊基于的「圖像中同一位置至多只有某個類別的一個實體」的假設也使得膠囊得以使用活動向量這樣的分離式表征方式來記錄某個類別實例的各方面屬性，還可以通過矩陣乘法建模的方式更好地利用空間信息。不過膠囊的研究也才剛剛開始，他們覺得現在的膠囊至于圖像識別，就像二十一世紀初的 RNN 之于語音識別——研究現在只是剛剛起步，日后定會大放異彩。

論文全文參見：https://arxiv.org/pdf/1710.09829.pdf

對這三篇論文感興趣的朋友們，可以點擊如下地址，查看更多更詳細的解讀：

谷歌推出基于注意機制的全新翻譯框架，Attention is All You Need!

蒙特利爾大學研究者改進Wasserstein GAN，極大提高GAN訓練穩定性

終于盼來了Hinton的Capsule新論文，它能開啟深度神經網絡的新時代嗎？