AlphaGoZero創造者:星際爭霸2比圍棋更有難度





AlphaGo Zero創造者

台中監視器安裝 選自Reddit

機器之心編譯

昨日,DeepMind 在《自然》雜志上發表瞭一篇論文,正式推出人工智能圍棋程序 AlphaGo 的最新版本 AlphaGo Zero。同時,在 DeepMind 發佈的官方博客中,DeepMind 強化學習團隊負責人、AlphaGo 項目負責人 David Silver 視頻介紹瞭最新的 AlphaGo Zero。今天,David Silver 與團隊另一成員 Julian Schrittwieser 代表 AlphaGo 創造者在 Reddit 台中市路口監視器上回答瞭讀者的一系列問題。本文對這些問答作瞭編譯介紹。

以下為 David Silver 與 Julian Schrittwieser 代表 AlphaGo 創造團隊在 Reddit 上的問答:

1。 為什麼 AlphaGo Zero 的訓練如此穩定?深度強化學習極其不穩定且易於遺忘,自我對弈(self-play)也是,兩者的結合如果沒有很好的(基於模仿的)初始化和大量人類棋譜將是一個災難。但是 AlphaGo Zero 從零開始,並且沒有借助人類棋譜來防止遺忘或死循環。論文對於這點沒有涉及,因此你們是如何做到的?

David Silver:相較於典型的(無模型)算法,如策略梯度或者 Q 學習,AlphaGo Zero 采用瞭一種相當不同的深度強化學習方法。借助 AlphaGo 搜索,我們顯著提升瞭策略和自我對弈的結果,接著我們使用簡單的基於梯度的更新訓練下一個策略+價值網絡。這要比累加的、基於梯度的策略提升更加穩定,並且不會遺忘先前的成果。

2。 你認為 AlphaGo 能解決 Igo Hatsuyoron 120 這個‘史上最難死活題’嗎?即贏取一個給定的中局或者確定一個現有解決方案?

David Silver:我們剛剛請教瞭樊麾,他認為 AlphaGo 會解決這個問題,但更為有趣的是 AlphaGo 能否找到書中的答案,或者我們想不到的方案。而這正是我們在 AlphaGo 的訓練中多次目睹的事情。

3。 你們認為圍棋與星際爭霸 2 哪個更有難度?面臨的最大潛在技術障礙是什麼?正式更新什麼時候出來?

Julian Schrittwieser:我們宣佈開放星際爭霸 2 環境剛過去幾個星期,所以現在還處於早期階段。星際爭霸的行動空間確實要比圍棋更具挑戰性,因為其觀察空間要遠大於圍棋。從技術上講,我認為兩者最大的區別之一在於圍棋是一種完美信息博弈,而星際爭霸因為有戰爭迷霧,屬於不完美信息博弈。

4。 你覺得數據比算法更重要嗎?不過你關於 AlphaGo Zero 的新論文卻暗示瞭另外的含義。

Julian Schrittwieser:我覺得目前算法仍然比數據更重要,隻要看看 AlphaGo Zero 比之前幾個版本的訓練效率高出那麼多就能理解。而且我認為在未來,數據在訓練效率上的重要性也會大有提升。

5。 由於整個管道隻在模型的最新最好版本上展開自我對弈,你們認為模型在使用具體的 SGD 算法更新參數空間時存在過擬合風險嗎?看起來最後的模型遊戲過程中,模型會稍微依賴於隨機初始化權重以及實際面對的遊戲狀態(作為隨機行動采樣的結果)。

David Silver:實際上,表征也很可能在其他選擇上表現良好。但是我們有 3 個理由使用堆疊的觀測歷史:(1)它在其它領域(比如 Atari)的常用輸入表征是一致的;(2)我們需要一些歷史來表征 ko;(3)瞭解對手最近輸入位置的歷史很有用,這可充當一種註意力機制(即註意對手的想法很重要)。

台中監視器材 6。 這會是 AlphaGo 的最終迭代監視器台中推薦版本嗎?

David Silver:我們已經停止瞭強化 AlphaGo 的積極研究,但仍保留瞭研究試驗臺,以供 DeepMind 人員驗證新思路和新算法。

7。 DeepMind 和 Facebook 都在大力研究強化學習,你認為是什麼令 AlphaGo 的表現能如此快速地提升? 此外對於機器學習前沿,特別是強化學習,其發展趨勢如何?

David Silver:Facebook 更關註監督學習,它能產生當時性能最優的模型;而我們更關註強化學習,因為我們相信它最終會超越人類已有的知識而進一步取得提升。我們最近的結果實際上表明,隻有監督學習確實可實現令人驚嘆的表現,但強化學習絕對是超越人類水平的關鍵。

8。 有開源 AlphaGo 的計劃嗎?

David Silver:我們之前已經開源瞭大量的代碼,但過程一直非常復雜。不幸的是,AlphaGo 項目的代碼庫更加復雜,甚至有點過分。

9。 我們現在可以通過強大的國際象棋引擎給棋手做內部評級,一步一步地分析棋手的下棋過程進而評定 Elo 等級分。這可以使我們更有條理的做事,比如比較不同時代的棋手,而且還有可能提供研究人類認知的平臺。這對 AlphaGo 也有效嗎?我猜測這對圍棋來說會更加復雜,因為在國際象棋中不需要考慮 margin of victory。

Julian Schrittwieser:這確實是個很棒的主意!我覺得我們完全可以在圍棋中做同樣的事情,可能會以比較最佳落子和每一步落南投監視器價格子的價值的方式,或者使用決策網絡為每一步落子分配的概率。如果有時間的話,我很樂意嘗試。

10。 你們在 AlphaGo Zero 中首先嘗試自我對弈訓練而不是整合人類比賽數據。為什麼 AlphaGo 之前的版本沒有使用自我對弈訓練呢,還是已經嘗試過,但效果沒有這麼好,為什麼?我很好奇這一塊的發展和進步。和現在相比,兩年前在 AlphaGo 訓練過程中使用自我對弈有什麼瓶頸嗎?從最終成就自我對弈系統的所有迭代中收獲瞭什麼‘機器學習知覺’(machine learning intuition)?

David Silver:創建利用自我對弈來學習的系統在強化學習領域一直是一個開放性問題。我們最初嘗試瞭文章提到的很多類似算法,發現都不穩定。我們進行瞭很多次實驗,最終發現 AlphaGo Zero 的算法是最高效的,而且應該解決瞭這個問題。

11。 據說 AlphaGo 柯潔版本僅需李世乭版本處理能力的 1/10。你對此做瞭哪些優化?也就是說 AlphaGo 柯潔版本的能力是李世乭版本的 10 倍嗎?

Julian Schrittwieser:這主要是因為價值/策略網絡的改善,訓練和架構都變得更好。這篇論文的圖 4 對比瞭不同網絡架構。

12。 有考慮過使用生成對抗網絡嗎?

David Silver:在某種意義上,自我對弈(self-play)訓練已經是對抗性質的:每次迭代都試圖找到對抗上一版本的‘anti-strategy’。

13。 在設計 AlphaGo 系統架構時,最困難的部分是什麼?

David Silver:我們遇到的一個重大挑戰是在與李世乭比賽期間出現的,當時,我們意識到 AlphaGo 偶爾會受到我們稱之為‘錯覺(delusion)’的影響,即對弈中智能體會持續多次系統地誤解當前的棋局,並嘗試瞭很多方法來解決它,如給智能體灌輸更多的圍棋知識或人類元知識。我們的解決方法是使智能體變得更加條理化,使用更少的知識,更多地依賴強化學習來生成更高質量的解決方案;最終我們取得瞭成功,在 AlphaGo 中消除瞭這些問題。

原文鏈接:https://www.reddit.com/r/MachineLearning/comments/76xjb5/ama_we_are_david_silver_and_julian_schrittwieser/

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
CCFDBCE103EAA647

arrow
arrow

    llz057x6e9 發表在 痞客邦 留言(0) 人氣()