AlphaZero

AlphaZero（アルファゼロ）は、DeepMindによって開発されたコンピュータプログラムである。汎化されたAlphaGo Zeroのアプローチを使用している。 2017年12月5日、DeepMindチームはAlphaGo Zeroのアプローチを汎化したプログラムであるAlphaZeroの論文をarXiv上で発表した。AlphaZeroは、24時間以内にチェス、将棋、囲碁の世界チャンピオンプログラムであるStockfish、elmo、3日間学習させたAlphaGo Zeroを破るレベルに達した^[1]。具体的には、2時間で将棋、4時間でチェスの最高峰のAIに勝利し、AlphaGo Zeroも8時間で上回った。

AlphaZeroは、オープニングブック（序盤定跡データベース）とエンドゲームの表（終盤を解析したデータベース）を参照せずに、4時間の自己対戦だけでStockfishを凌駕した^[2]^[3]。

それまでチェスおよび将棋のAIで一般的であったアルファ・ベータ探索ではなく、囲碁AIで成功を収めたモンテカルロ木探索（モンテカルロ法の応用）とディープラーニングをこれらのゲームに対して適用しても強いAIが作れることを実証した。

手法

モンテカルロ木探索を使用した自己対戦によって、ディープラーニングを用いた強化学習をする。

AlphaGo Zeroとの関係

詳細は「AlphaGo Zero」を参照

AlphaZero (AZ) は、AlphaGo Zero (AGZ) アルゴリズムのより汎化された変種であり、囲碁とともに将棋とチェスがプレーできる。AZとAGZとの間の違いには以下の内容が含まれる^[1]。

AZは探索ハイパーパラメータ（英語版）の設定のためにハードコードされている。
ニューラルネットワークは絶えず更新される。
（チェスと異なり）囲碁は任意の鏡映と回転下で対称である。AGZはこれらの対称性をうまく利用するようにプログラムされている。AZはされていない。
（囲碁と異なり）チェスには引き分けがある。したがって、AZは引き分けの可能性が考慮できる。

性能

囲碁

囲碁を8時間自己学習した後に前バージョンのAlphaGo Zeroと対戦して、AlphaZeroは60勝40敗であった^[4]。

将棋

将棋プログラムelmoとの100局において、AlphaZeroは90勝8敗2分であった^[4]。このとき、思考時間はチェス同様一手ごとに1分与えられた。

チェス

AlphaZeroとStockfishとのチェス対局において、それぞれのプログラムは一手ごとに1分の思考時間が与えられた。AlphaZeroは白（先手）で25勝、黒（後手）で3勝し、残りの72局で引き分けた^[4]。

AlphaZeroはStockfishを初めて打ち負かしたプログラムではない。Komodo（英語版）と呼ばれるプログラムが、今回より前にStockfishを破っていた^[4]。Komodoのラリー・カウフマン（英語版）はAlphaZeroの勝利を重要視せず、「AlphaZeroは効果的に自分のオープニングブックを構築しているので、オープニングブックを用いるトップエンジンに対してよりフェアに戦えたのだろう」と主張した^[5]。

評価

新聞は、訓練にわずか4時間しかかからなかったとの大見出しを付けた: 『朝食と昼食の間と大差ない時間でやってのけた』^[2]^[6]。WIRED誌は、AlphaZeroを「初のマルチスキルAIボードゲームチャンピオン」として大々的に宣伝した^[7]。AI専門家のJoanna Bysoは、Googleは「パブリシティ（宣伝）の才覚」によって競合他社に対して有利な立場に立ったと述べた。「すぐれたプログラマーを雇えるだけではありません。AI部門に注目する各国政府や規制当局者との交渉においてできる限り強い立場に立つ上でも有益なので、非常に政治的でもあるのです。」^[4]

オランダのチェスグランドマスターであるピーター・ハイネ・ニールセン（英語版）はBBCのインタビューに対して、「私はいつも、人間より優れた生命が地球に降り立ち、チェスをどうプレーするのか見せてくれたらどんな風になるのだろうと思っていました。今、わかりました」と語った^[4]。ノルウェーのグランドマスターであるヨン・ルズヴィ・ハンメル（英語版）はAlphaZeroの特徴について、深遠なポジショナルプレイ（駒の位置を良くする指し方）を用いながらの「常軌を逸した攻撃的チェス」と述べた^[2]。

脚注

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Search

AlphaZero

目次

手法

AlphaGo Zeroとの関係

性能

囲碁

将棋

チェス

評価

脚注