2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

本文作者：叢末

2019-12-29 23:46

導語：圍棋被攻克之后，多人在線戰術競技游戲（MOBA）已經成為測試檢驗前沿人工智能的動作決策和預測能力的重要平臺?；隍v訊天美工作室開發的熱門 MOBA 類手游《王者

圍棋被攻克之后，多人在線戰術競技游戲（MOBA）已經成為測試檢驗前沿人工智能的動作決策和預測能力的重要平臺?；隍v訊天美工作室開發的熱門 MOBA 類手游《王者榮耀》，騰訊 AI Lab 正努力探索強化學習技術在復雜環境中的應用潛力。本文即是其中的一項成果，研究用深度強化學習來為智能體預測游戲動作的方法，論文已被AAAI-2020接收。

此技術支持了騰訊此前推出的策略協作型 AI 「絕悟」1v1版本，該版本曾在今年8月上海舉辦的國際數碼互動娛樂展覽會China Joy首次亮相，在2100多場和頂級業余玩家體驗測試中勝率達到99.8%。

除了研究，騰訊AI Lab與王者榮耀還將聯合推出“開悟”AI+游戲開放平臺，打造產學研生態。王者榮耀會開放游戲數據、游戲核心集群（Game Core）和工具，騰訊AI Lab會開放強化學習、模仿學習的計算平臺和算力，邀請高校與研究機構共同推進相關AI研究，并通過平臺定期測評，讓“開悟”成為展示多智能體決策研究實力的平臺。目前“開悟”平臺已啟動高校內測，預計在2020年5月全面開放高校測試，并且在測試環境上，支持1v1，5v5等多種模式；2020年12月，我們計劃舉辦第一屆的AI在王者榮耀應用的水平測試。

以下是本次入選論文的詳細解讀：

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

arxiv 鏈接：https://arxiv.org/abs/1912.09729
絕悟5v5版本達到職業水平：https://mp.weixin.qq.com/s/h7JOSs90MVQ8XzUnKJ48Iw
AI開放平臺「開悟」啟動：https://mp.weixin.qq.com/s/jaZJtkljVBib0mj1iOJQbg

在競爭環境中學習具備復雜動作決策能力的智能體這一任務上，深度強化學習（DRL）已經得到了廣泛的應用。在競爭環境中，很多已有的 DRL 研究都采用了兩智能體游戲作為測試平臺，即一個智能體對抗另一個智能體（1v1）。

其中 Atari 游戲和棋盤游戲已經得到了廣泛的研究，比如 2015 年 Mnih et al. 使用深度 Q 網絡訓練了一個在 Atari 游戲上媲美人類水平的智能體；2016 年 Silver et al. 通過將監督學習與自博弈整合進訓練流程中而將智能體的圍棋棋力提升到了足以擊敗職業棋手的水平；2017 年 Silver et al. 又更進一步將更通用的 DRL 方法應用到了國際象棋和日本將棋上。

本文研究的是一種復雜度更高一籌的MOBA 1v1 游戲。即時戰略游戲（RTS）被視為 AI 研究的一個重大挑戰。而MOBA 1v1 游戲就是一種需要高度復雜的動作決策的 RTS 游戲。相比于棋盤游戲和 Atari 系列等 1v1 游戲，MOBA 的游戲環境要復雜得多，AI的動作預測與決策難度也因此顯著提升。以 MOBA 手游《王者榮耀》中的 1v1 游戲為例，其狀態和所涉動作的數量級分別可達 10^600 和 10^18000，而圍棋中相應的數字則為 10^170 和 10^360，參見下表 1。

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

表 1：圍棋與 MOBA 1v1 游戲的比較

此外，MOBA 1v1 的游戲機制也很復雜。要在游戲中獲勝，智能體必須在部分可觀察的環境中學會規劃、攻擊、防御、控制技能組合以及誘導和欺騙對手。除了玩家與對手的智能體，游戲中還有其它很多游戲單位，比如小兵和炮塔。這會給目標選擇帶來困難，因為這需要精細的決策序列和相應的動作執行。

此外，MOBA 游戲中不同英雄的玩法也不一樣，因此就需要一個穩健而統一的建模方式。還有一點也很重要：MOBA 1v1游戲缺乏高質量人類游戲數據以便進行監督學習，因為玩家在玩 1v1 模式時通常只是為了練習英雄，而主流 MOBA 游戲的正式比賽通常都采用 5v5 模式。

需要強調，本論文關注的是 MOBA 1v1 游戲而非MOBA 5v5 游戲，因為后者更注重所有智能體的團隊合作策略而不是單個智能體的動作決策?？紤]到這一點，MOBA 1v1游戲更適合用來研究游戲中的復雜動作決策問題。

為了解決這些難題，本文設計了一種深度強化學習框架，并探索了一些算法層面的創新，對 MOBA 1v1 游戲這樣的多智能體競爭環境進行了大規模的高效探索。文中設計的神經網絡架構包含了對多模態輸入的編碼、對動作中相關性的解耦、探索剪枝機制以及攻擊注意機制，以考慮 MOBA 1v1 游戲中游戲情況的不斷變化。

為了全面評估訓練得到的 AI 智能體的能力上限和策略穩健性，新設計的方法與職業玩家、頂級業務玩家以及其它在 MOBA 1v1 游戲上的先進方法進行了比較。

本文有以下貢獻：

對需要高度復雜的動作決策的 MOBA 1v1 游戲 AI 智能體的構建進行了全面而系統的研究。在系統設計方面，本文提出了一種深度強化學習框架，能提供可擴展的和異步策略的訓練。在算法設計方面，本文開發了一種用于建模 MOBA 動作決策的 actor-critic 神經網絡。網絡的優化使用了一種多標簽近端策略優化（PPO）目標，并提出了對動作依賴關系的解耦方法、用于目標選取的注意機制、用于高效探索的動作掩碼、用于學習技能組合 LSTM 以及一個用于確保訓練收斂的改進版 PPO——dual-clip PPO。

在《王者榮耀》1v1 模式上的大量實驗表明，訓練得到的 AI 智能體能在多種不同類型的英雄上擊敗頂級職業玩家。

1、系統設計

考慮到復雜智能體的動作決策問題可能引入高方差的隨機梯度，所以有必要采用較大的批大小以加快訓練速度。因此，本文設計了一種高可擴展低耦合的系統架構來構建數據并行化。具體來說，這個架構包含四個模塊：強化學習學習器（RL Learner）、人工智能服務器（AI Server）、分發模塊（Dispatch Module）和記憶池（Memory Pool）。如圖 1 所示。

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

圖 1：系統設計概況

AI 服務器實現的是 AI 模型與環境的交互方式。分發模塊是用于樣本收集、壓縮和傳輸的工作站。記憶池是數據存儲模塊，能為RL 學習器提供訓練實例。這些模塊是分離的，可靈活配置，從而讓研究者可將重心放在算法設計和環境邏輯上。這樣的系統設計也可用于其它的多智能體競爭問題。

2、算法設計

RL 學習器中實現了一個 actor-critic 神經網絡，其目標是建模 MOBA 1v1 游戲中的動作依賴關系。如圖2所示。

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

圖 2：論文實現的actor-critic網絡

為了實現有效且高效的訓練，本文提出了一系列創新的算法策略：

1.目標注意力機制：用于幫助AI在 MOBA 戰斗中選擇目標。

2.LSTM：為了學習英雄的技能釋放組合，以便AI在序列決策中，快速輸出大量傷害。

3.動作依賴關系的解耦：用于構建多標簽近端策略優化（PPO）目標。

4.動作掩碼：這是一種基于游戲知識的剪枝方法，為了引導強化學習過程中的探索而開發。

5.dual-clip PPO：這是 PPO 算法的一種改進版本，使用它是為了確保使用大和有偏差的數據批進行訓練時的收斂性。如圖3所示。

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020

圖 3：論文提出的dual-clip PPO算法示意圖，左為標準PPO，右為dual-clip PPO

有關這些算法的更多詳情與數學描述請參閱原論文。

3、實驗

系統設置

測試平臺為熱門 MOBA 游戲《王者榮耀》的 1v1 游戲模式。為了評估 AI 在現實世界中的表現，這個 AI 模型與《王者榮耀》職業選手和頂級業余人類玩家打了大量比賽。實驗中 AI 模型的動作預測時間間隔為 133 ms，這大約是業余高手玩家的反應時間。另外，論文方法還與已有研究中的基準方法進行了比較，其中包括游戲內置的決策樹方法以及其它研究中的 MTCS 及其變體方法。實驗還使用Elo分數對不同版本的模型進行了比較。

實驗結果

探索動作決策能力的上限

表 3 給出了AI和多名頂級職業選手的比賽結果。需要指出這些職業玩家玩的都是他們擅長的英雄。可以看到 AI 能在多種不同類型的英雄上擊敗職業選手。

2100場王者榮耀，1v1勝率99.8%，騰訊絕悟 AI 技術解讀 | AAAI 2020