這篇文章告訴你AlphaGo隱藏弱點 以及它是如何下棋的
傑米斯 哈薩比斯(Demis Hassabis) ,Google DeepMind CEO
企鵝智酷 | 深度解讀
這篇分析中,企鵝智酷將結合 AlphaGo 相關權威論文中提供的信息,以及這兩場比賽中李世石與 AlphaGo 表現,來用更簡潔的方式,告訴你谷歌(微博) AlphaGo 到底如何下棋,以及它有哪些被隱藏起來的弱點。
先說核心結論:
作為戰勝瞭人類圍棋冠軍的人工智能,AlphaGo (目前版本)強在小范圍戰鬥,弱點在於對全局的判斷;
AlphaGo 並非沒有“情緒”。它也會懷疑自己,隻是用另一種形式呈現(不是人類的抖手或者撓頭發);
是誰在訓練 AlphaGo ?是它自己。用一種遠超人類效率的方式學習;
李世石如何贏?和很多圍棋專傢分析的一樣,從科技角度看,李世石必須在開局階段建立優勢,並且最好能夠更頻繁轉移戰場范圍;
未來,AlphaGo 會將人類棋手遠遠甩在身後。它就隻能繼續和自己玩瞭。
一、AlphaGo 是如何決定下每一步棋的?
企鵝智酷沒有能夠真的打開 AlphaGo 代碼庫,去檢查它全面的運行邏輯。我們隻能從已公開的權威論文中,來梳理這個迄今為止走進公眾視野的最強大人工智能,是如何做出決策,戰勝人類的。
簡單說,AlphaGo 下的每一步棋,都依賴於“概率”。
1.當一開始,棋盤有大量空白區域,棋子較少時,AlphaGo會更願意采用“固定策略”。
這種策略來自於 AlphaGo 自己模擬訓練的數百萬場棋局(每一局都從開始模擬到結束)。這讓 AlphaGo 心中有一個大概的最佳選擇可能性,即下在點A和點B,哪個更好些。
在這個時候,AlphaGo 是通過經驗來判斷的。雖然這個經驗不烘焙設備介紹來自與人類,而是來自於它結合人類下棋方式學習後,自己和自己對弈的數百萬經驗值。但這種基於經驗的判斷,是人類挑戰它的最佳機會 和“恐怖”的機器推演能力相比,經驗,起碼離人類更近一些。
為什麼 AlphaGo 不在一開始就用蒙特卡羅算法,盡量窮盡所有可能性,去給出更可靠的“計算答案”,而不是“經驗答案”呢?
我們猜測,一方面是當棋局尚未真正交鋒時,各種選擇的概率差不多,沒必要做精確計算;另一方面,也為瞭節省時間。
2.當棋局有局部拼殺時,AlphaGo 的戰力就升級瞭。
這時候,再依賴那數百萬局“自己與自己下棋”的經驗,明顯是不夠的。因為棋局瞬息萬變,李世石的下法,很可能是 AlphaGo 沒有模擬過的(不要高估數百萬局訓練,和圍棋的可能性相比,隻是滄海一粟)。
這時候,AlphaGo 會不再聚焦於整個棋盤,而將計算精力縮到一個小范圍(戰鬥區域,例如右下角5*5,8*8這種)。這時候,它會啟動現場演算推理功能,即開始計算每一個落子位置的後續走勢,來計算最佳一步。
這需要時間。所以,AlphaGo 在短兵相接時,不得不縮小觀察范圍,在局部啟動現場計算。這雖然失去瞭一定的“大局觀”,但換來瞭計算的效率,和電腦比,人腦的純粹計算力是相對弱勢的,所以,短兵相接,機器占大優勢。
3.當局勢需要兼顧大局和計算力時,AlphaGo 怎麼辦?
開局佈局,AlphaGo 用經驗;短兵相接,AlphaGo 用計算力。那麼在局勢復雜時,AlphaGo 的另一個特長就有用武之地瞭 兼顧大局觀和計算能力。
它叫做“棋局評估器 (Position Evaluator)”。這個東西會告訴 AlphaGo ,哪些地方是“不值得”你去深度計算的。這就幫助 AlphaGo 節省大量的計算需求,隻針對局面上有價值的點,來推演,並給出最終的優勝概率排序。所以,這個評估器也叫作“價值網絡”。
這東西是怎麼實現的呢?也是經驗。AlphaGo 模擬瞭兩個“自己”,然後隨機落子計算每個位置對贏棋的價值。這種簡單粗暴的計算是人類大腦無法訓練的,隻有機器可以肆無忌憚的這麼做。
打個形式上的比喻。如果你用過掃地機器人就知道,啟動後,它並非按照人類的方式,一塊地磚接一塊的掃地,而是以一種亂序的方式,在房間裡橫沖直撞。
你以為它瘋瞭。但隻要你關上門,過一會,你會發現它已經把地打掃幹凈瞭 所有的區域,都被這種隨機方式覆蓋到。
人類是不可能這麼掃地。會累死你。
但和窮盡推演相比(雖然目前不可實現),這種價值估算並不是完全準確的(掃地和圍棋在精讀與復雜度上,是完全不同的)。它是在兼顧時間和效率基礎上,一種最適合的策略。這也是 AlphaGo的一個弱點。
二、AlphaGo 也會懷疑自己
我們覺得人機對戰對李世石不公平的一個地方,是機器人不會受情緒影響,而人類棋手卻時常受困於其中。
從單一棋局看,AlphaGo 確實是不會“後悔”的,因為它的每一步,都是它認定的最佳決策。但當你通過多局去觀察 AlphaGo 時,會發現它其實也會“懷疑”,隻是這種懷疑,並不會影響它的棋力,反而會促進它的進化。
原理很簡單。AlphaGo 會懷疑自己,是因為在很多局面選擇時,最優解不止一個,或者比較接近。例如有五個點的贏棋概率都是45%,在這一局裡,AlphaGo 可能選擇瞭半自動充填機食品機械點A,但下一句,它可能會選擇點B……
如果點A贏瞭,以後它會一直選擇點A嗎?這個我也不清楚,論文裡沒說。但從邏輯上推斷,既然是經過瞭百萬棋局的演算,那麼一局的勝負,對於具體某點的概率提升,不會太明顯。所以,AlphaGo 在應對同樣局面時,它可能給出完全不同的下法 根據幾個最優解,隨機選擇。
而這一點,也正是它可怕之處。連開發它的人類,都無法預測它的行為。因為你把隨機函數的權利,交給瞭人工智能自己。
三、AlphaGo 為什麼極少下臭棋?
我們通常把人工智能比作”高智商嬰兒“,按照這個推斷,AlphaGo 就算表現驚艷,但應該也會有下臭棋的時候。因為單純的人工智能,是無法真的模擬人類思維的。
但 AlphaGo 沒有丟過人。因為在一開始,它並非完全的“自學”。工程師們安排 AlphaGo 在網絡對戰平臺上,與人類棋手不斷下棋,用來學習人類下棋的風格和方式。當工程師們覺得 AlphaGo 足以“像個人類棋手”時,才讓它開始自己和自己更瘋狂的練棋。
你如果很早在KGS(網絡圍棋對戰平臺)上遇到過 AlphaGo ,那麼,你可能有幸看到過 AlphaGo 還是嬰兒時的樣子。
四、AlphaGo 自己訓練自己,而且效率嚇人
前面提到瞭,和人類練棋不同,AlphaGo 在學會瞭人類下棋方式後,復制瞭兩個自己,依托計算機性能優勢,不斷下棋,去豐富對局面判斷力。這種效率非常之高,甚至已經超越瞭人類歷史上所有的對弈棋局總數量。
這意味著 AlphaGo 會越來越”老練“。雖然它還是無法在每一局的每一步中,窮盡所有可能性(如果它能做到,就戰無不勝瞭),但它會不斷通過訓練積累大局觀,而隨著大局觀提升,在實戰中,它需要做現場精準推演的效率也會更聚焦 人類也就越來越難贏它。
在可以預見的未來,AlphaGo 會將人類棋手遠遠甩在後面。然後,它就隻能在自己的世界裡,自己和自己下棋玩瞭。
人類棋手會像今天的電競愛好者那樣,去看看兩個“AlphaGo“ 的對局直播,一邊驚嘆,一邊感悟。
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表