邀請函or挑戰(zhàn)書？OpenAI 喊你研究 7 個未解 AI 問題

本文作者：楊曉凡

編輯：郭奕欣

2018-02-05 15:09

導語：眾人拾柴火焰高

雷鋒網(wǎng) AI 科技評論按：OpenAI 昨日發(fā)布一篇博客，介紹了 7 個自己近期在研究但尚未解決的問題，希望邀請到外部的研究者一同參與研究、做出進展。OpenAI 尤其希望它們是有趣的、有意義的，既可以吸引新人加入到人工智能領(lǐng)域中來，也可以讓有經(jīng)驗的研究者繼續(xù)磨煉自己的水平（甚至感興趣的研究者也可以以此為機會加入 OpenAI）。此前 OpenAI 也做過一次這樣的邀請研究活動，得到的結(jié)果形成了多篇論文。

研究這些問題的過程肯定會需要很多新點子，OpenAI 非常歡迎參與者寫郵件和他們溝通，也可以通過 OpenAI 宣傳找到的解決方案（發(fā)送郵件到 requests-for-research@openai.com）。對于沒有深度學習背景、但對解決這樣的問題非常感興趣的人，OpenAI 也準備了實習生計劃可供申請。問題的具體內(nèi)容雷鋒網(wǎng) AI 科技評論介紹如下。

熱身問題

對于不知道如何開始的參與者，OpenAI 先給了幾個已經(jīng)得到解決的入門級問題。

預備問題 1，難度 ★

訓練一個 LSTM 網(wǎng)絡(luò)解決異或問題；也就是說，給定一串二進制數(shù)以后，判定它們的奇偶性。LSTM 需要能夠處理這一段序列，一次處理一位，然后在序列輸入結(jié)束后輸出正確的結(jié)果。可以嘗試這兩種方法。

生成一個數(shù)據(jù)集，包含 10 萬個長度為 50 的隨機二進制字符串。用它訓練 LSTM，看看結(jié)果如何。
生成一個數(shù)據(jù)集，包含 10 萬個隨機二進制字符串，每個字符串的長度是在 1 到 50 之間獨立、隨機選擇的。這樣做成功了嗎？為什么結(jié)果會有區(qū)別？

預備問題 2，難度 ★

在 Gym 環(huán)境中實現(xiàn)一個經(jīng)典的貪食蛇游戲，然后根據(jù)自己的喜好選擇一個強化學習算法解決它。你能訓練出一個能玩贏游戲的策略嗎？

待研究的問題

問題 1，難度 ★★

在 Gym 環(huán)境中實現(xiàn)經(jīng)典貪食蛇游戲的多人版本并嘗試解決它。可以參考 https://slither.io/

環(huán)境：有足夠大的場地，里面有多條蛇；蛇吃到隨機出現(xiàn)的食物之后會變長；如果一條蛇吃到了自己、撞到了墻、或者碰到了其它的蛇就會死掉；當所有蛇都死掉以后，游戲結(jié)束。可以從兩條蛇的狀況開始，然后逐步增加數(shù)量。
智能體：基于自己選擇的強化學習算法，通過自我對弈學習的方式解決問題。自我對弈有不穩(wěn)定的問題（和大家在 GANs 上遇到的不穩(wěn)定性很類似），你需要實驗多種不同的方法來克服。比如，用一組快速策略作為你的當前策略的對手來訓練。那種方式效果最好？
檢查學習到的行為：智能體確實學會了追逐實物并且躲避其它蛇了嗎？這個智能體是否還學會了攻擊、圍困別的蛇，或者和別的蛇協(xié)同行動呢？

問題 2，難度 ★★★

在分布式強化學習中平均參數(shù)。在樣本復雜度和溝通數(shù)量兩個指標上試試看參數(shù)平均化的做法的效果。最簡單的做法是在每次更新中都把每個分布式計算節(jié)點的梯度做平均，不過也可以通過獨立地更新每個節(jié)點、不頻繁地更新參數(shù)的做法節(jié)省通訊帶寬（https://arxiv.org/abs/1511.06051 ）。在強化學習中這樣做還有個額外的好處：在任意一個時刻，環(huán)境內(nèi)的多個智能體都各自有不同的參數(shù)，這有可能帶來更好的探索行為。另外還可以使用 EASGD 這樣的算法，在每次更新中只合并一部分參數(shù)（https://arxiv.org/abs/1412.6651 ）。

問題 3，難度 ★★★

在游戲和生成式模型之間做遷移學習。過程是這樣的：

給 11 個不同的 Atari 游戲訓練 11 個好的策略。讓每個游戲的策略各自生成 10k 組操作過程，每組過程里有 1k 步。
用其中的 10 個游戲的操作過程訓練一個生成式模型（比如 Transformer，https://arxiv.org/abs/1706.03762 ）
然后在第 11 個游戲上精細調(diào)節(jié)這個模型。
要完成的目標就是量化評估用前 10 個游戲做預訓練的收益有多大。模型需要有多大才能體現(xiàn)出預訓練的作用？第 11 個游戲的數(shù)據(jù)量縮小到十分之一、百分之一的時候，模型的表現(xiàn)會有多大變化？

問題 4，難度 ★★★

帶有線性注意力的 Transformers。Transformer 模型中配合 softmax 使用了軟注意力（soft attention）。如果把其中的軟注意力替換為線性注意力（它可以轉(zhuǎn)換成一個使用快速權(quán)重的 RNN，https://arxiv.org/abs/1610.06258 ），就可以把得到的模型用在強化學習中。具體來說，在較大的背景場地下把轉(zhuǎn)換器模型作為強化學習模型來使用有點不現(xiàn)實，但是運行一個帶有快速權(quán)重的 RNN 就非常可行了。

你的目標是任選一個語言建模任務(wù)，訓練一個轉(zhuǎn)換器模型，然后想辦法用不同超參數(shù)的線性注意力轉(zhuǎn)換器，對所有的單詞/字母都得到同樣長度的轉(zhuǎn)換后數(shù)值，同時還不能過多地增加總參數(shù)數(shù)目。這里只有一個警告，就是這件事最后有可能做不出來。但是 OpenAI 也給了一個有可能會有幫助的提示：和使用 softmax 的注意力相比，帶有線性注意力的轉(zhuǎn)換器模型需要維度明顯更高的值向量，而這一點不需要增加多少參數(shù)數(shù)目就可以做到。

問題 5，難度 ★★★

學習到的數(shù)據(jù)增強。你可以用基于數(shù)據(jù)學到的 VAE（變分自動編碼器），做「學到的數(shù)據(jù)增強」任務(wù)。在這里，可以先根據(jù)輸入數(shù)據(jù)訓練 VAE，每個訓練數(shù)據(jù)點都會被編碼為潛空間中的一個點；接著在潛空間施加一個簡單的擾動（比如高斯擾動）然后把它解碼回觀測空間。有沒有可能用這樣的方法獲得更好的泛化結(jié)果呢？這種數(shù)據(jù)增強有一個潛在的好處，就是它可以包括許多的非線性變換，比如視角變換以及場景光照變換。以及能否估計出哪些變換是具有標簽不變性的呢？OpenAI 自己已經(jīng)在這方面做過一些研究，感興趣的話可以了解一下、在此基礎(chǔ)上繼續(xù)改進。

https://arxiv.org/abs/1611.01331
https://arxiv.org/abs/1702.05538
https://arxiv.org/abs/1709.01643
https://arxiv.org/abs/1711.04340
https://arxiv.org/abs/1711.00648
http://cs231n.stanford.edu/reports/2017/pdfs/300.pdf
https://arxiv.org/abs/1710.10564
https://papers.nips.cc/paper/7278-learning-to-model-the-tail

問題 6，難度 ★★★

強化學習的正則化。用實驗的方法調(diào)查（以及定性地解釋）你選擇的強化學習算法上施加不同正則化方法的效果。在有監(jiān)督深度學習中，想要提高優(yōu)化效果以及預防過擬合的話，正則化都是非常重要的，dropout、batch normalization、L2 正則化等方法都是效果非常出色的方法。然而在強化學習這邊，人們并沒能從策略梯度、Q-learning 這樣的方法中得到多少移除。很巧的是，大家一般用在強化學習里的模型都要比有監(jiān)督學習的模型小得多，因為越大的模型表現(xiàn)會越糟糕——這可能就是因為大模型會對近期的經(jīng)驗過擬合。這方面也有人做過相關(guān)的理論研究可供參考 http://sologen.net/papers/RegularizationInReinforcementLearning(PhD-Dissertation-Farahmand).pdf 。

問題 7，難度 ★★★

自動求解奧林匹克不等式問題。奧林匹克不等式問題表述起來很簡單，但是求解它們通常需要精巧的操作方法。建立一個奧林匹克不等式問題的數(shù)據(jù)集，然后寫出一個能解出其中大部分的程序。機器學習在這里能不能派上用場還不太清楚，但是有可能可以用學到的策略減少分叉因子。

對于以上 7 個問題，OpenAI 非常希望有人可以和他們共同研究、嘗試解決這些問題。而且也歡迎有志于把解決這些問題作為工作的人加入 OpenAI。不知道各位讀者是否覺得有意思、是否愿意動手試一試呢？

via OpenAI Blog，雷鋒網(wǎng) AI 科技評論編譯

馬斯克的OpenAI，究竟是如何在dota2中擊敗頂級人類選手的？

OpenAI提出層級強化學習，給長序列動作學習帶來新的曙光

OpenAI 發(fā)布稀疏計算內(nèi)核，更寬更深的網(wǎng)絡(luò)，一樣的計算開銷

OpenAI 開源最新工具包，模型增大 10 倍只需額外增加 20% 計算時間