• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    專欄 正文
    發(fā)私信給Ticwear
    發(fā)送

    9

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    導(dǎo)語:AlphaGo要戰(zhàn)勝李世石難度是比較大的。

    按:作者李理,出門問問NLP工程師。

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    AlphaGo在與歐洲圍棋冠軍樊麾(Fan Hui)的對壘

    從技術(shù)的角度分析,個人覺得,3月份AlphaGo要戰(zhàn)勝李世石難度是比較大的。為什么呢?請看下文。 

    一、 AlphaGo的兩大核心技術(shù)

    • MCTS(Monte Carlo Tree Search)

    MCTS之于圍棋就像Alpha-Beta搜索之于象棋,是核心的算法,而比賽時的搜索速度至關(guān)重要。就像深藍(lán)當(dāng)年戰(zhàn)勝時,超級計算機(jī)的運(yùn)算速度是制勝的關(guān)鍵因素之一。

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

     MCTS的4個步驟:Selection,Expansion,Evaluation(rollout)和Backup

    MCTS的并行搜索:

     (1) Leaf Parallelisation

         最簡單的是Leaf Parallelisation,一個葉子用多個線程進(jìn)行多次Simulation,完全不改變之前的算法,把原來的一次Simulation的統(tǒng)計量用多次來代替,這樣理論上應(yīng)該準(zhǔn)確不少。但這種并行的問題是需要等待最慢的那個結(jié)束才能更新統(tǒng)計量;而且搜索的路徑數(shù)沒有增多。

    (2) Root Parallelisation

    多個線程各自搜索各自的UCT樹,最后投票

    (3) Tree Parallelisation

    這是真正的并行搜索,用多個線程同時搜索UCT樹。當(dāng)然統(tǒng)計量的更新需要考慮多線程的問題,比如要加鎖。

    另外一個問題就是多個線程很可能同時走一樣的路徑(因為大家都選擇目前看起來Promising的孩子),一種方法就是臨時的修改virtual loss,比如線程1在搜索孩子a,那么就給它的Q(v)減一個很大的數(shù),這樣其它線程就不太可能選擇它了。當(dāng)然線程1搜索完了之后要記得改回來。

    《A Lock-free Multithreaded Monte-Carlo Tree Search Algorithm》使用了一種lock-free的算法,這種方法比加鎖的方法要快很多,AlphaGo也用了這個方法。

     Segal研究了為什么多機(jī)的MCTS算法很難,并且實驗得出結(jié)論使用virtual loss的多線程版本能比較完美的scale到64個線程(當(dāng)然這是單機(jī)一個進(jìn)程的多線程程序)。AlphaGo的Rollout是用CPU集群來加速的,但是其它的三個步驟是在一臺機(jī)器完成的,這個就是最大的瓶頸。

    • DCNN(Deep Convolutional Neural Network)

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    (使用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Policy Network和Value Network)

    神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時間一般很長,即使用GPU,一般也是用天來計算。Google使用GPU Cluster來訓(xùn)練,從論文中看,訓(xùn)練時間最長的Value Network也只是用50個GPU訓(xùn)練了一周。

    給定一個輸入,用卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測,基本運(yùn)算是矩陣向量運(yùn)算和卷積,由于神經(jīng)網(wǎng)絡(luò)大量的參數(shù),用CPU來運(yùn)算也是比較慢的。所以一般也是用GPU來加速,而AlphaGo是用GPU的cluster來加速的。

    更多技術(shù)細(xì)節(jié)請參考我的文章《alphaGo對戰(zhàn)李世石誰能贏?兩萬字長文深挖圍棋AI技術(shù)》

     1. 論文送審時(2015年11月)AlphaGo的水平

    論文里使用Elo Rating系統(tǒng)的水平:

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    a圖是用分布式的AlphaGo,單機(jī)版的AlphaGo,CrazyStone等主流圍棋軟件進(jìn)行比賽,然后使用的是Elo Rating的打分。

    筆者認(rèn)為AlphaGo的水平超過了FanHui(2p),因此AlphaGo的水平應(yīng)該達(dá)到了2p。【不過很多人認(rèn)為目前Fanhui的水平可能到不了2p】

    b圖說明了Policy Network Value Network和Rollout的作用,做了一些實驗,去掉一些的情況下棋力的變化,結(jié)論當(dāng)然是三個都很重要。

    c圖說明了搜索線程數(shù)以及分布式搜索對棋力的提升,這些細(xì)節(jié)我們會在下一節(jié)再討論,包括AlphaGO的架構(gòu)能不能再scalable到更多機(jī)器的集群從而提升棋力。

    •  AlphaGo的真實棋力

    筆者這里根據(jù)一些新聞做推測。而且從文章提交Nature審稿到3月份比賽還有一段不短的時間,AlphaGo能不能還有提高也是非常關(guān)鍵。這里我只是推測一下在文章提交Nature時候AlphaGo的棋力。至于AlphaGo棋力能否提高,我們下一節(jié)分析實現(xiàn)細(xì)節(jié)時再討論(假設(shè)整體架構(gòu)不變,系統(tǒng)能不能通過增加機(jī)器來提高棋力)。

    網(wǎng)上很多文章試圖通過AlphaGo與fanhui的對局來估計AlphaGo的棋力,我本人圍棋水平離入門都比較遠(yuǎn),所以就不敢發(fā)表意見了。我只是搜索了一些相關(guān)的資料,主要是在弈城上一個叫DeepMind的賬號的對局信息來分析的。

    比如這篇《金燦佑分析deepmind棋譜 認(rèn)為99%與谷歌團(tuán)隊相關(guān)》。作者認(rèn)為這個賬號就是AlphaGo。如果猜測正確的話,AlphaGo當(dāng)時的棋力在弈城8d-9d之間,換成我們常用的ranking system的話大概也就是6d-7d(業(yè)余6段到7段)的水平,如果發(fā)揮得好,最多也許能到1p的水平,戰(zhàn)勝fanhui也有一定合理性(很多人認(rèn)為fanhui目前實際水平可能已經(jīng)沒有2p了,那算1p的話也差不多)

    知乎的這個話題AlphaGo也有很多討論,可供參考。

    二、 AlphaGo到比賽前可能的提升

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    不同分布式版本的水平比較,使用的是Elo rating標(biāo)準(zhǔn)

    最強(qiáng)的AlphaGo使用了64個搜索線程,1920個CPU的集群和280個GPU的集群(其實也就二十多臺機(jī)器)

    三、 AI戰(zhàn)勝圍棋大師李世石:我看懸

    之前我們討論過分布式MCTS時說過,MCTS很難在多機(jī)上并行,所以AlphaGo還是在一臺機(jī)器上實現(xiàn)的LockFree的多線程并行,只不過Rollout和神經(jīng)網(wǎng)絡(luò)計算是在CPU和GPU集群上進(jìn)行的。Google的財力肯定不只二三十臺機(jī)器,所以分布式MCTS的搜索才是最大的瓶頸。如果這個能突破,把機(jī)器堆到成百上千臺應(yīng)該還是能提高不少棋力的。

    我個人估計在3月與李世石的對弈中這個架構(gòu)可能還很難有突破,可以增強(qiáng)的是RL Policy的自對弈學(xué)習(xí),不過這個提升也有限(否則不會只訓(xùn)練一天就停止了,估計也收斂的差不多了)。

    所以,這一次,AI的勝算并沒有李世石的大。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    深度學(xué)習(xí)工程師:為什么AlphaGo難取勝?從核心技術(shù)解讀圍棋大戰(zhàn)

    分享:
    相關(guān)文章

    知情人士

    Ticwear是由人工智能公司出門問問于2014年12月19日發(fā)布的全球首款中文智能手表操作系統(tǒng),得到了媒體和用戶的一致好評。出門問問一直在尋找人工智能在可穿戴設(shè)備上的最佳落地方式,以及最適合自然語音交互的載體。Ticwear用到的“神經(jīng)網(wǎng)絡(luò)”、“自然語言”、“深度學(xué)習(xí)”、“語音識別”等技術(shù),比所謂機(jī)器人的人工智能在技術(shù)層面上一樣都不少。
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 不卡免费一区二区日韩av| 男女91| 无码国产偷倩在线播放| AV在线亚洲欧洲日产一区二区 | 中韩日电影在线看完整| 天天做夜夜做| 国产理论最新国产精品视频| 亚洲高清国产拍精品网络战| 成人国产精品免费网站| 91肉丝| 中文字幕乱码人妻无码久久95| 午夜无码一区二区三区在线app| 久久天天躁夜夜躁狠狠| 国产精品久久久久久福利69堂| 国产成人黄色自拍小视频| 人妻第三页| 久久亚洲熟女中文字幕| 久久99精品久久久久久9| 久久自己只精产国品| 丰满少妇被猛烈进入无码| 人人人澡人人肉久久精品| 民宅夫妻偷拍啪啪55AV| 欧美三级不卡在线观线看高清| 国产中文字幕一区二区| 久久一区二区中文字幕| 国产日韩精品中文字幕| 亚洲日韩中文乱码制服丝袜| 婷婷丁香五月六月综合激情啪| 亚洲高清中文字幕| 国产精品一区二区三区专区| 亚洲色欲色欱WWW在线| 中国女人大白屁股ass| 国产精品1区2区| 亚洲最大av免费观看| 2020国产欧洲精品网站| 色伦专区97中文字幕| 在线a亚洲老鸭窝天堂| 在线视频日韩| 国产精品资源手机在线播放| 精品黑人一区二区三区国语馆| 一区二区亚洲人妻av|