• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    專欄 正文
    發(fā)私信給鄭宇
    發(fā)送

    7

    AlphaGo在人機大戰(zhàn)中風光了一把,但它的弱點依然存在

    本文作者: 鄭宇 2016-03-23 18:36
    導語:?AlphaGo在人機大戰(zhàn)中贏了,但是兩位研究員列出了它的2個弱點。

    按:本文作者鄭宇博士,ACM數(shù)據(jù)挖掘中國分會秘書長,ACM Transactions on Intelligent Systems and  Technology主編;張鈞波博士,ACM數(shù)據(jù)挖掘中國分會會員,從事深度神經(jīng)網(wǎng)絡相關研究。

    近期AlphaGo在人機圍棋比賽中連勝李世石3局(最終4:1打敗李),體現(xiàn)了人工智能在圍棋領域的突破,作為人工智能領域的工作者,我們深感欣慰。其實質(zhì)是深度學習網(wǎng)絡(CNN)跟蒙特卡羅搜索樹(MCTS)結合的勝利,是人類智慧的進步。不少所謂的“磚”家開始鼓吹機器戰(zhàn)勝人類、甚至人類將被機器統(tǒng)治等無知言論,讓人實在看不下去。作為圍棋愛好者和人工智能領域工作者,我們覺得是時候跟大家講講AlphaGo的原理及其弱點了。

    可以很負責任地告訴大家,AlphaGo還沒有完全攻克圍棋這個難題,職業(yè)棋手也并非沒有希望贏Go了,更不能說機器戰(zhàn)勝了人類。AlphaGo未來需要走的路還很長。如果有中國職業(yè)棋手想挑戰(zhàn)AlphaGo,我們愿意為其組建最頂尖(且懂圍棋)的人工智能專家顧問團,助其取勝AlphaGo。

    雖然網(wǎng)上技術貼不少,但還沒有一篇文章完全講清楚AphaGo的原理,Nature上刊登的文章也缺乏一張刨解全局的圖(加之用英文描述,同學們很難理解透徹)。以下是我跟張鈞波博士在多次閱讀原文并收集了大量其他資料后,一起完成的一張圖,解釋了AlphaGo的原理,看完后大家自然知道其弱點在何處了。

    AlphaGo在人機大戰(zhàn)中風光了一把,但它的弱點依然存在

    圖1、AlphaGo的原理圖 (作者為本圖花費大量心血,版權歸兩位作者所有,歡迎轉(zhuǎn)發(fā),但請勿盜圖)

    AlphaGo總體上包含離線學習(圖1上半部分)和在線對弈(圖1下半部分)兩個過程。

    離線學習過程分為三個訓練階段。

    • 第一階段:利用16萬多幅專業(yè)棋手對局的棋譜來訓練兩個網(wǎng)絡。

    一個是基于全局特征和深度卷積網(wǎng)絡(CNN)訓練出來的策略網(wǎng)絡(Policy Network)。其主要作用是給定當前盤面狀態(tài)作為輸入,輸出下一步棋在棋盤其它空地上的落子概率。另一個是利用局部特征和線性模型訓練出來的快速走棋策略(Rollout Policy)。策略網(wǎng)絡速度較慢,但精度較高;快速走棋策略反之。

    • 第二階段:利用第t輪的策略網(wǎng)絡與先前訓練好的策略網(wǎng)絡互相對弈,利用增強式學習來修正第t輪的策略網(wǎng)絡的參數(shù),最終得到增強的策略網(wǎng)絡。

    這部分被很多“磚”家極大的鼓吹,但實際上應該存在理論上的瓶頸(提升能力有限)。這就好比2個6歲的小孩不斷對弈,其水平就會達到職業(yè)9段?

    • 第三階段:先利用普通的策略網(wǎng)絡來生成棋局的前U-1步(U是一個屬于[1, 450]的隨機變量),然后利用隨機采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。

    隨后,利用增強的策略網(wǎng)絡來完成后面的自我對弈過程,直至棋局結束分出勝負。此后,第U步的盤面作為特征輸入,勝負作為label,學習一個價值網(wǎng)絡(Value Network),用于判斷結果的輸贏概率。價值網(wǎng)絡其實是AlphaGo的一大創(chuàng)新,圍棋最為困難的地方在于很難根據(jù)當前的局勢來判斷最后的結果,這點職業(yè)棋手也很難掌握。通過大量的自我對弈,AlphaGo產(chǎn)生了3000萬盤棋局,用來訓練價值網(wǎng)絡。但由于圍棋的搜索空間太大,3000萬盤棋局也不能幫AlphaGo完全攻克這個問題。

    在線對弈過程包括以下5個關鍵步驟:其核心思想實在蒙特卡羅搜索樹(MCTS)中嵌入了深度神經(jīng)網(wǎng)絡來減少搜索空間。AlphaGo并沒有具備真正的思維能力。

    1. 根據(jù)當前盤面已經(jīng)落子的情況提取相應特征;

    2. 利用策略網(wǎng)絡估計出棋盤其他空地的落子概率;

    3. 根據(jù)落子概率來計算此處往下發(fā)展的權重,初始值為落子概率本身(如0.18)。實際情況可能是一個以概率值為輸入的函數(shù),此處為了理解簡便。

    4. 利用價值網(wǎng)絡和快速走棋網(wǎng)絡分別判斷局勢,兩個局勢得分相加為此處最后走棋獲勝的得分。這里使用快速走棋策略是一個用速度來換取量的方法,從被判斷的位置出發(fā),快速行棋至最后,每一次行棋結束后都會有個輸贏結果,然后綜合統(tǒng)計這個節(jié)點對應的勝率。而價值網(wǎng)絡只要根據(jù)當前的狀態(tài)便可直接評估出最后的結果。兩者各有優(yōu)缺點、互補。

    5. 利用第四步計算的得分來更新之前那個走棋位置的權重(如從0.18變成了0.12);此后,從權重最大的0.15那條邊開始繼續(xù)搜索和更新。這些權重的更新過程應該是可以并行的。當某個節(jié)點的被訪問次數(shù)超過了一定的門限值,則在蒙特卡羅樹上進一步展開下一級別的搜索(如圖2所示)。

    AlphaGo在人機大戰(zhàn)中風光了一把,但它的弱點依然存在

    圖2、MCTS拓展下一級節(jié)點

    AlphaGo的弱點在哪里?

    1、攻其策略網(wǎng)絡,加大搜索空間。

    進入中盤后,職業(yè)選手如能建立起比較復雜的局面,每一步棋都牽連很多個局部棋的命運(避免單塊、局部作戰(zhàn)),則AlphaGo需要搜索空間則急劇加大,短時間內(nèi)得到的解的精度就會大打折扣。通俗地說,非常復雜的變化,人算不清楚,現(xiàn)階段計算機的計算力更沒辦法。李世石九段的第四局棋就有這個意思。此處左右上下共5塊黑白棋都相互關聯(lián)到一起,白1下后,黑棋需要考慮很多地方。很多地方都需要在MCTS上進行更深入的搜索。為了在一定的時間內(nèi)有結果,只能放棄搜索精度。

    AlphaGo在人機大戰(zhàn)中風光了一把,但它的弱點依然存在

    圖3、李世石對AlphaGo第四盤棋棋譜

    2、攻其價值網(wǎng)絡,萬劫不復。

    AlphaGo的價值網(wǎng)絡極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準確判斷圍棋局勢還有不小的差距。神經(jīng)網(wǎng)絡還不能完全避免在某些時候出現(xiàn)一些怪異(甚至錯誤)的判斷,更何況其訓練樣本還遠遠不足。這也是為什么有了價值網(wǎng)絡還仍然需要依靠快速走棋來判斷局勢。

    大家都曾經(jīng)懷疑過AlphaGo的打劫能力,也感覺到了AlphaGo有躲避打劫的跡象。實際上南京大學的周志華教授曾經(jīng)撰文指出打劫會讓價值網(wǎng)絡崩潰的問題,原理不再重復。不能說AlphaGo不會打劫,而是害怕在棋局早期的多劫并存。即,打劫要乘早,太晚了搜索空間變小,即便價值網(wǎng)絡失效,還可以靠快速走棋網(wǎng)絡來彌補。開劫應該以在剛剛進入中盤時期為好(太早劫財還不夠),并且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網(wǎng)絡的AlphaGo其實水平也就職業(yè)3-5段左右。

    結束語

    1. AlphaGo已經(jīng)達到了頂尖棋手的水平,但還不能說徹底打敗了人類!

    2. AlphaGo是人類智慧的進步,但其本身并沒有思維和智慧!

    3. 數(shù)據(jù)+計算資源+計算方法à人工智能在圍棋項目的進步

    注:本文由作者本人授權發(fā)布雷鋒網(wǎng),如獲授權轉(zhuǎn)載,也請務必標明出處,侵權必究。

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    AlphaGo在人機大戰(zhàn)中風光了一把,但它的弱點依然存在

    分享:
    相關文章

    專欄特約作者作者

    ACM數(shù)據(jù)挖掘中國分會秘書長,ACM Transactions on Intelligent Systems and Technology主編
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 久久久久久久综合| 精品尤物TV福利院在线网站| 狠狠人妻久久久久久综合蜜桃 | 亚洲欧美日本久久久综合麻豆 | 2020无码专区人妻系列日韩| 亚洲成人av在线资源| 日本免费一区二区三区| 欧美日韩中文亚洲v在线综合| 国产成熟女人性满足视频| 国产口爆| 无码另类小说| 婷婷丁香五月亚洲| 国语精品自产拍在线观看网站| 亚洲无码天堂| 亚洲欧美中文字幕| 久久超碰色中文字幕超清 | 超碰福利导航| 亚洲原创无码| 91国内精品久久久久免费影院| 国产精品第一页中文字幕| 亚洲国产成人无码电影| 少妇一夜三次一区二区| 夜夜澡人人爽人人喊_欧美| 亚洲日本va午夜在线电影| 日本丶国产丶欧美色综合| 熟妇人妻一区二区三区四区| 无码人妻AV| 专区国产无码| 国产精品无码成人午夜电影| 日本高清一区二区在线观看| 国产+高潮+白浆+无码老妇| 男女啪啪高潮激烈免费版| 久久综合色一综合色88| 图片区偷拍区小说区五月| 91麻豆产精品久久久久久夏晴子| 看污网址| 国产精品人妻中文字幕| 洋洋AV| 日日摸摸碰夜| 午夜三级A三级三点在线观看| 四虎精品永久在线视频|