谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

本文作者：楊曉凡

2019-01-22 11:23

導語：直接在真實世界訓練，想想都不放心……

雷鋒網 AI 科技評論按：相比于傳統方式中需要工程人員手動設計機器人每一個動作的精確參數，AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學習方式：深度強化學習可以讓機器人從經驗、從與世界的互動中直接學習行為，因為它可以借助通用化的神經網絡表示，處理復雜的傳感器輸入。然而，許多現有的強化學習算法都需要幾天、幾周甚至更久時長的真實世界數據才能收斂到比較理想的動作。更重要的是，這樣的系統很難在復雜的機器人系統上使用（比如多足機器人），在系統的探索學習過程中很容易就會損傷到機器人的機械部件，同時還難以調節超參數，許多安全方面的考量也可能帶來更多的限制。

近期，谷歌 AI 與 UC 伯克利大學合作研發了一種新的強化學習算法 Soft Actor-Critic（SAC）。這是一種穩定、高效的深度強化學習算法，它高度符合機器人實驗的需求，也就非常適合真實世界中的機器人技能學習。重點是，SAC 的學習效率足夠高，可以在數個小時內學會解決真實世界的機器人問題，而且同一套超參數可以在多種不同的環境中工作。

谷歌 AI 撰寫博客介紹了 SAC 背后的一些研究工作，也介紹了相關的實驗結果。雷鋒網 AI 科技評論編譯如下。另外可以參見 OpenAI 先在模擬環境中訓練機器人，然后高效地遷移到真實機器人的研究。

在真實世界中學習機器人的要求

真實世界的機器人實驗有著一些重大的挑戰，比如硬件失效和人工重置會導致數據流經常中斷，以及需要讓探索學習過程平滑，避免快速的機械磨損或者撞擊破壞，這都對算法理論和算法的實現增加了額外的限制，包括以下（但不限于）：

有較高的樣本效率，以便降低學習時間；
需要調節的超參數的數量盡量小；
能在不同的場景中重復使用已經采集到的數據（也被稱作“無策略學習”）；
確保探索學習過程不損壞硬件；

Soft Actor-Critic

Soft Actor-Critic 是基于最大熵強化學習開發的，這是一種嘗試讓預期回報最大化（標準的強化學習目標），同時也讓策略的熵最大化的框架。熵更高的策略具有更高的隨機性，從直覺上看來，這意味著最大熵強化學習會學習出能取得高回報的策略中具有最高隨機性的那個策略。

為什么在機器人學習中這是一件好事呢？一個明顯的原因是，為最大熵優化的策略會更為魯棒：如果策略在訓練過程中能夠允許高度隨機的動作，那么它在測試時候也就更有可能可以順利地應對預期不到的擾動。不過更穩妥的理由是，最大熵訓練不僅可以提高算法對超參數的魯棒性，也可以提高它的采樣效率。

Soft Actor-Critic 會學習一個隨機策略，這個策略會把狀態映射到動作以及一個 Q 函數，這個 Q 函數會估計當前策略的目標價值，并通過逼近動態編程優化它們。通過這樣的方式，Soft Actor-Critic 可以讓經過熵強化的回報最大化。在這個過程中，SAC 會把目標看作一個絕對真的方法來導出更好的強化學習算法，它們的表現穩定，而且有足夠高的樣本效率，可以用在真實世界的機器人應用中。

SAC 的表現

研究人員們在兩個任務中評估了算法的表現：1，Ghost Robotics 環境中 Minitaur 四足機器人的行走；2，用一個三指動力爪轉動閥門。學習行走這件事當然是一個不小的挑戰了，由于機器人是欠驅動的，所以機器人需要學會如何在四只腿之間平衡接觸力的大小，這樣才能持續往前走。未經訓練的策略會讓機器人失去平衡摔倒，而如果摔了太多次，最終是有可能把機器人摔壞的。樣本高效的學習在這時候也就非常關鍵。

雖然研究人員們是在平地上訓練的機器人行走策略，但稍后的測試階段是在多種不同的地面狀況和障礙物上進行的。理論上來說，通過 SAC 學習到的策略在測試時遇到擾動的時候也應當是魯棒的。而實際上研究人員們也觀察到，通過他們的方法學習到的策略不需要任何額外的學習就可以應對這些擾動。

谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

訓練

谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

測試 1

谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

測試 2

谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

測試 3

下面這個操控任務需要機械手轉動一個類似閥門的物體，目標是讓藍色的一面朝向右側。這個任務尤其有挑戰性，不僅任務的理解感知有難度，而且還需要控制這個具有 9 個自由度的機械手。為了能夠感知這個閥門，機器人必須要使用來自攝像頭的原始 RGB 圖像輸入（如圖右下角）。對于每一輪嘗試，閥門的位置都會重新設定到一個隨機角度，迫使策略學習如何根據 RGB 圖像輸入感知當前的閥門角度。

谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

對于這兩個任務，SAC 都能很快地解決：前一個四足機器人任務學了 2 個小時，后一個觀察圖像、轉動閥門的任務學習了 20 個小時。研究人員們也為轉動閥門任務學習了一個無需圖像輸入的策略，他們把其它方式采集到的閥門角度作為觀察結果輸入給策略，在這種簡單的設置下 SAC 只需要 3 個小時就可以學會解決這個任務。相比之下，更早的使用自然策略梯度的研究學習同一個無需圖像輸入的任務需要花 7.4 個小時。

結論

這項研究展示了基于熵最大化框架的深度強化學習可以用來在有挑戰性的真實世界環境中學習機器人技能。由于這些策略是直接在真實世界中學習到的，它們對環境中的變化表現出了魯棒性，這通過其他方式是很難獲得的。研究人員們也展示了他們可以直接從高維圖像觀察中學習，這對經典機器人控制來說也是一個很大的挑戰。研究人員們希望 SAC 的發表可以幫助其他的研究團隊一同更好地把深度強化學習應用在未來更多的復雜真實世界任務中。

閱讀原論文可見：https://arxiv.org/abs/1812.05905

via ai.googleblog.com，雷鋒網 AI 科技評論編譯

4人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章