UCT探索

スポンサードリンク

UCT探索

多腕バンディット問題に使用したUCBというものを
探索として使用したものがUCTと言います。

探索ってなんだ?

皆さんは当サイトを読まれているので
おそらく囲碁や将棋を一度はプレイしたことがあるのでは無いでしょうか?

 

人間もゲームをプレイするときは
自分がこう打つ⇒相手はこう打ってくる⇒自分がこう切り返す⇒相手が更に・・・

 

といった具合で
次の次を考えてプレイしますよね?

 

これを探索といいます。

 

例えば、詰碁や詰将棋というのは
【何手詰め?】といった問題集が売られていますよね。

世界一やさしい手筋と詰碁 [ 万波佳奈 ]

1155円

新5手7手詰めパラダイス [ 詰将棋パラダイス編集部 ]

1050円

コンピュータの詰将棋

例えば
【三手先】自分が打つ⇒相手が打つ⇒自分が打つ

 

このときの局面というのは複数パターンあると思います。

 

囲碁の初手は【361通り】
囲碁の二手目は【360通り】
囲碁の三手目は【359通り】

 

初手

361通りの局面(マシン)に対して、
UCB(収穫と探検のジレンマ)を適用して、
良い局面を探ります。

 

二手目

360通りの局面(マシン)に対して、
UCB(収穫と探検のジレンマ)を適用して、
良い局面を探ります。

 

三手目

359通りの局面(マシン)に対して、
UCB(収穫と探検のジレンマ)を適用して、
良い局面を探ります。

 

といった具合で
深く深く試していく方法だと思ってください。

 

【続き】学習によるシミュレーションの改良

スポンサードリンク

UCT探索関連ページ

モンテカルロ法
天頂の囲碁、銀星囲碁、最強の囲碁の3つの囲碁ソフトが使っているモンテカルロ法について解説します。
思考ゲームへの応用
コンピュータ囲碁へのモンテカルロ法の応用方法を紹介します。
強くなった理由
モンテカルロ法を使用して、コンピュータ囲碁が強くなった真の理由を歴史と共にお話します。
多腕バンディットとUCB
スロットマシンの報酬を最大にするアルゴリズムとして知られる多腕バンディット問題とUCBアルゴリズムの関係を紹介。
学習によるシミュレーション改良
コンピュータ囲碁(モンテカルロ法)の改良として学習によるシミュレーションの改良などが行われています。ELOレーティング・Bradley-Terryモデル・パターン学習など。
並列化
コンピュータ囲碁の並列化に関する簡単なお話です。
定石データベース・詰碁探索
コンピュータ囲碁に使われている定石データベースや詰碁探索についてお話します。

logo logo logo