0
雷鋒網 AI科技評論按:OpenAI最新發現表明,通過在網絡的參數空間中加入噪聲,可以獲得遠優于在網絡的行為空間中增加噪聲的表現。此外,他們發布了一系列基準代碼,覆蓋多個網絡。
雷鋒網 AI科技評論編譯如下:
OpenAI實驗室最新發現:頻繁地給增強學習算法中的參數增加自適應噪聲后,能得到更好的結果。這種方法實現簡單,基本上不會導致結果變差,值得在任何問題上嘗試。

圖1:加入行為空間噪聲訓練的模型

圖2:加入參數空間噪聲訓練的模型
參數噪聲可以幫助算法高效地探索出合適的動作范圍,在環境中獲得優良表現。如圖1、圖2所示,經過216個episode的訓練之后,沒有加入參數噪音的DDPG會頻繁產生低效的奔跑行為,而加入參數噪聲訓練之后產生的奔跑行為得分更高。
增加參數噪聲后,智能體學習任務的速度變得更快,遠優于其他方法帶來的速度增長。在半獵豹運動環境(圖1、圖2)中經過20個episode的訓練之后,這項策略的得分在3000分左右,而采用傳統動作噪音訓練的策略只能得到1500分左右。
參數噪聲方法是將自適應噪聲加在神經網絡策略的參數中,而不是加在行為空間。傳統的增強學習(RL)利用行為空間噪聲來改變智能體每一刻執行的動作的可能性。參數空間噪聲使智能體的參數直接增加了隨機性,改變了智能體做出的決策的類型,使它們總是能完全依賴于對當前環境的感知。這種技術介于進化策略(可以控制智能體的參數,但是當它在每一步中探索環境時,不會再次影響它的行為)和類似TRPO、DQN、DDPG這樣的深度增強學習方法之間 (不能控制參數,但可以在策略的行為空間上增加噪聲)。

圖3:左邊是行為空間噪聲,右邊是參數空間噪聲
參數噪聲可以讓算法更高效的探索環境,得到更高的分數和更優雅的動作。因為有意的在策略參數中增加噪聲,能使智能體在不同時刻的探索保持一致,而在行為空間中增加噪聲,會讓探索過程更加難以預測,這種探索過程也就與智能體的參數沒有特定的關聯性。
人們之前曾嘗試過將參數噪聲應用于策略梯度。在OpenAI的探索之下,這種方法現在可以用在更多地方了,比如用在基于深度神經網絡的策略中,或是用在基于策略和策略無關的算法中。

圖4:加入行為空間噪聲訓練的模型

圖5:加入參數空間噪聲訓練的模型
如圖4、圖5所示,增加參數空間噪聲后可以在賽車游戲中獲得更高的分數。經過2個episode的訓練,訓練中在參數空間增加噪聲的DDQN網絡學會了加速和轉彎,而訓練中在行為空間增加了噪聲的網絡展現出的動作豐富程度就要弱很多。
在進行這項研究時他們遇到了如下三個問題:
不同層數的網絡對擾動的敏感性不同。
在訓練過程中,策略權重的敏感性可能會隨著時間改變,這導致預測策略的行動變得很難。
選取合適的噪聲很困難,因為很難直觀地理解訓練過程中參數噪音是怎么影響策略的。
第一個問題可以用層級歸一化來解決,這可以保證受到了擾動的層的輸出(這個輸出是下一個層級的輸入)與未受擾動時的分布保持相似。
可以引入一種自適應策略來調整參數空間擾動的大小,來處理第二和第三個問題。這一調整是這樣實現的:測量擾動對行為空間的影響和行為空間噪聲與預定目標之間的差異(更大還是更小)。這一技巧把選擇噪聲大小的問題引入行為空間,比參數空間具有更好的解釋性。
選擇基準,進行benchmark
OpenAI發布了一系列基準代碼,為DQN、雙DQN(Double DQN)、決斗DQN(Dueling DQN)、雙決斗DQN(Dueling Double DQN)和DDPG整合了這種技術。

此外,也發布了DDQN在有無參數噪聲下玩部分Atari游戲性能的基準。另外還有DDQN三個變體在Mujoco模擬器中一系列連續控制任務下的性能基準。
研究過程
在第一次進行這項研究時,OpenAI發現應用到DQN的Q函數中的擾動有時候太極端了,導致算法重復執行相同的動作。為了解決這個問題,他們添加了一個獨立的策略表達流程,能夠像在DDPG中一樣明顯的表示出策略(在普通的DQN網絡中,Q函數只能隱含的表示出策略),使設置與其他的實驗更相似。
然而,在為這次發布準備代碼時,他們做了一次實驗,在使用參數空間噪聲時沒有加獨立的策略策略表達流程。
他們發現實驗的結果與增加獨立策略表達流程之后的結果很相似,但實現起來更簡單。進一步的實驗證實獨立的策略頭確實是多余的,因為算法很可能在早期的實驗中就得到了改進(他們改變了調節噪聲的方式)。這種方法更簡單、更具有可行性,降低了訓練算法的成本,并且能得到相似的結果。
重要的是要記住,AI算法(特別是在增強學習中)可能會出現一些細微的失敗,這種失敗會導致人們尋找解決方案的時候很難對癥下藥。
雷鋒網 AI科技評論編譯。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。