MultiwayにおけるNash均衡と複数Nash均衡の選択理論
マルチウェイではNash均衡がGTO戦略にならない理由を、AKQ gameの3way拡張で解説。MDFの共有、複数均衡の選択基準、GTO WizardのQREによる均衡選択まで踏み込む。

文責:しぐま (Twitter: @sigm_4)
本稿でわかること
MultiwayにおけるNash均衡が一般にどのような性質を持つのか、なぜmultiwayにおけるNash均衡に含まれる戦略はGTO戦略と呼べないのか
AKQ gameのmultiwayへの拡張
MDFの共有という概念
複数のNash均衡からどの戦略を採用するべきか、GTO Wizardではどのような戦略が選ばれているか
導入:MultiwayのNash均衡
最近、GTO Wizardが3wayのsolutionを提供し始めたことが話題になっている。
https://blog.gtowizard.com/gto_wizard_ai_3_way_benchmarks/
本記事では、multiway(特に3way)に関する均衡戦略についての基本的な点を解説する。特に、基本的な概念の一つであるMDFの共有についてmodelベースで議論することで、multiwayの基礎戦略を理解する。また、一般にmultiwayのNash均衡に含まれる戦略はGTO戦略(最適戦略)と呼べるような良い性質を持たないことを具体的に確認する。特に複数のNash均衡が存在する場合に、どのNash均衡を選択するべきか、solver (GTO Wizard)ではどのように選択されているかについて議論する。
AKQ gameのmultiwayへの拡張
まず初めに、heads-up pokerにおける最も基本的なmodelの一つであるAKQ gameをmultiwayに拡張することを考える。以下では、最も基本的な3wayの状況を考え、① AJ-Q-K gameと② AJ-K-Q gameという異なる2つのバリエーションについて見ていく。
① AJ-Q-K game
次のような設定の3-way modelを考える。
・プレイヤー1、2、3の3人による1-streetのmodelを考える。
・Pot sizeを1として全プレイヤーのstackを$${S}$$とする。
・プレイヤー1 (BB) → プレイヤー2 (UTG) → プレイヤー3 (BTN)の順番にアクションを行う。
・それぞれのプレイヤーは手番でcheckまたはall inのみが行えるものとし、all inに対してはcallまたはfoldが選択できる。
・プレイヤー1 (BB)は、AまたはJを等確率で持つ。
・プレイヤー2 (UTG)は、Qを持つ。
・プレイヤー3 (BTN)は、Kを持つ。
このAJ-Q-K gameのNash均衡は次のようになる。
・プレイヤー1 (BB with A or J)は、Aをpure bet、Jを$${\alpha_S:=\frac{S}{1+S}}$$の割合でbetする。
・プレイヤー2 (UTG with Q)は、プレイヤー1のbetに対してはpure fold、プレイヤー1のcheckに対してはpure check。
・プレイヤー3 (BTN with K)は、プレイヤー1のbet(とプレイヤー2のfold)に対しては$${1-\alpha_S}$$の割合をcall、$${\alpha_S}$$の割合をfoldする。プレイヤー1のcheck(とプレイヤー2のcheck)に対しては任意。
これを図示すると図1のようになる。

このmodelでは、プレイヤー1はプレイヤー2と3に対してpolarizeしたレンジを持っている。Nash均衡では、2人AKQ gameと同様にプレイヤー1はvalueとbluffを$${1:\alpha_S}$$の割合でbetする。弱いキャッチハンドを持つプレイヤー2は、アクション順が中間の不利なポジションに立たされているためにpure foldすることになる。プレイヤー2のfold後、プレイヤー3は2人プレイヤーAKQ gameと同様にbet size $${S}$$に対するMDF $${1-\alpha_S}$$でcallする形となる。
1のbetを受けた段階では、プレイヤー2はcall or foldのindifferentにされているように感じるかもしれない。しかし、後続するプレイヤー3はより強いキャッチハンドを持っているために、プレイヤー2のcallに対して重ねてcallすることで得をし、それによってプレイヤー2は損をすることになってしまう。プレイヤー2から見たvalue/bluff比はbet sizeに対してvalueに寄っており、プレイヤー2のQによるcallがoddsに合わないとも言える。
② AJ-K-Q game
それでは、①のAJ-Q-K gameのプレイヤー2と3のハンドを入れ替えたら何が起こるだろうか。つまり、以下のようなAJ-K-Q gameを考える。
・プレイヤー1、2、3の3人による1-streetのmodelを考える。
・Pot sizeを1として全プレイヤーのstackを$${S}$$とする。
・プレイヤー1 (BB) > プレイヤー2 (UTG) > プレイヤー3 (BTN)の順番にアクションを行うものとする。
・それぞれのプレイヤーは手番でcheckまたはall inのみが行えるものとし、all inに対してはcallまたはfoldが選択できる。
・プレイヤー1 (BB)は、AまたはJを等確率で持つ。
・プレイヤー2 (UTG)は、Kを持つ。
・プレイヤー3 (BTN)は、Qを持つ。
このAJ-K-Q gameのNash均衡は次のようになる。プレイヤー1のcheckに対しては自明なので割愛する。
・プレイヤー1 (BB with A or J)は、Aをpure bet、Jを$${\alpha_S=\frac{S}{1+S}}$$の割合でbetする。
・プレイヤー2 (UTG with K)について、プレイヤー1のbetに対するcall頻度を$${1-\alpha_{\mathrm{K}}}$$、fold頻度を$${\alpha_{\mathrm{K}}}$$とする。
・プレイヤー3 (BTN with Q)について、プレイヤー1のbet後プレイヤー2がfoldした場合のcall頻度を$${1-\alpha_{\mathrm{Q}}}$$、fold頻度を$${\alpha_{\mathrm{Q}}}$$とする。プレイヤー2がプレイヤー1のbetをcallした場合にはpure foldする。
・この時、$${\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}=\alpha_S}$$を満たす任意の$${\alpha_{\mathrm{K}}}$$と$${\alpha_{\mathrm{Q}}}$$の組に対する上記の戦略はNash均衡を成す。
これを図示すると図2のようになる。

①のAJ-Q-K gameとはNash均衡の様子が異なることが見て取れる。Nash均衡を作る条件の
$$ \alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}=\alpha_S\quad\quad (1) $$
は次のように理解できる。プレイヤー1のbetに対してプレイヤー2と3がいずれもfoldを選択する確率は$${\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}}$$で、その場合プレイヤー1はpotの1を獲得する。一方で、プレイヤー2または3がcallを選択する確率は$${1-\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}}$$で、プレイヤー1がbluffハンドのJを持っていた場合、bet額の$${S}$$を失う。プレイヤー1のJがbet or checkのindifferentになるためには、式(1)が成り立つように$${\alpha_{\mathrm{K}}}$$と$${\alpha_{\mathrm{Q}}}$$を定める必要があるというわけである。
2人AKQ gameでは、bluffハンド(Q)のbet or checkのindifferentを導くためにKはbet size $${S}$$に対応する$${\alpha_S}$$の頻度(=いわゆるアルファ)でfoldし、$${1-\alpha_S}$$の頻度(=MDF)でcallしていた。3人のAJ-K-Q gameではcallerが2人いるために2人で協力してMDFを達成すれば良い。これが「MDFの共有」と呼ばれる概念である。
ここで重要な注意として、式(1)を満たす$${\alpha_{\mathrm{K}}}$$と$${\alpha_{\mathrm{Q}}}$$の組は全てNash均衡を成すため、Nash均衡が連続的に無限個存在している。2人zero-sum gameでも複数のNash均衡が存在しうるが、multiwayでは複数のNash均衡の存在が重篤な問題として現れることを次章以降で見ていく。
MultiwayにおけるNash均衡の問題点
前章で見た②のAJ-K-Q gameで得たNash均衡は、実はGTO戦略(または最適戦略)と呼べるような良い性質を持たない。具体的には次の2点が問題となる。
プレイヤーがNash均衡の戦略に従ったとしても、その戦略によって得られるEVが最低限保証されるというわけではない。つまり、あるプレイヤーがNash均衡の戦略を採用しても、他のプレイヤーが戦略を変更することで自身のEVが低下する可能性があるということである。
複数存在するNash均衡の集合から、各プレイヤーが異なるNash均衡に含まれる戦略を採用したとすると、その戦略組はNash均衡を成すとは限らない。つまり、複数のNash均衡の組み替えは許されない可能性があるということである。
1点目の最低EV保証について、②のmodelを用いて簡単に実証することができる。まず、任意のNash均衡において、プレイヤー1、2、3それぞれのEVは、
$$ \begin{align*} \mathrm{EV}_{\mathrm{AJ}}^{\mathrm{NE}} &= \frac{1+\alpha_S}{2} \\ \mathrm{EV}_{\mathrm{K}}^{\mathrm{NE}} &= \frac{1-\alpha_S}{2} \quad\quad (2) \\ \mathrm{EV}_{\mathrm{Q}}^{\mathrm{NE}} &= 0 \end{align*} $$
となる(右肩のNEの添字はNash均衡を明示するために付けている)。ここで、プレイヤー1がAもJもpure betをするように戦略変更を行った場合を考えよう。プレイヤー2とプレイヤー3がそのまま元のNash均衡に従っていたとすると、各プレイヤーのEVは次のように変化する。
$$ \begin{align*} \mathrm{EV}_{\mathrm{AJ}}' &= \frac{1+\alpha_S}{2} \\ \mathrm{EV}_{\mathrm{K}}' &= \frac{1-\alpha_{\mathrm{K}}}{2} \quad\quad (3) \\ \mathrm{EV}_{\mathrm{Q}}' &= \frac{\alpha_{\mathrm{K}} -\alpha_S}{2} \end{align*} $$
プレイヤー1は、戦略の変更によってEVは変化していないが、プレイヤー2はEVが低下し、その代わりにプレイヤー3のEVが上昇している。プレイヤー2は、Nash均衡に含まれる戦略が安全な戦略だと思ってプレイしていたにも拘らず、プレイヤー1の一存で勝手にEVを下げられてしまうのである[図3]。直観的には次のようになる。プレイヤー2は2人AKQ gameにおけるMDFよりも低いcall頻度を持っていたために、プレイヤー1がbluff頻度を上げたらEVが下がってしまうのである。ただし、その差分のEVはプレイヤー1に流れるのではなくプレイヤー3に流れていく。プレイヤー3は元々EVは0だったわけだが、プレイヤー1が適切なvalue/bluff比よりもbluffに寄せたbetを行うようになったために、callによって追加の利益を得ることができてしまうのである。
[注意1:2人(以上)のプレイヤーが共謀して別のプレイヤーのEVを下げられるというような説明がなされることが多いが、実際にはこのように1人のプレイヤーの戦略変更によってEVのtransferが起こりうる]
[注意2:プレイヤー1の戦略変更後の全プレイヤーの戦略組は当然Nash均衡を成さない。つまり、プレイヤー2(または3)はさらに戦略を変更することで自身のEVを上昇させることができる]



2点目の異なるNash均衡に含まれる戦略同士の組み替えに関しても、②のAJ-K-Q gameから簡単にデモンストレーション可能である。例えば、プレイヤー2と3のfold頻度について、$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (1, \alpha_S)}$$と$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (\alpha_S, 1)}$$はそれぞれ式(1)を満たすため2つの異なるNash均衡を構成する。これらを組み替えて$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (1, 1)}$$と$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (\alpha_S, \alpha_S)}$$という戦略組を考える。これらはいずれも式(1)を満たさないので、当然Nash均衡を成さない。より具体的には、$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (1, 1)}$$の場合(つまりプレイヤー2と3はプレイヤー1のbetに対してpure fold)、プレイヤー1はレンジの全てのハンドをpure betすることでEVを上昇させることができる。一方、$${(\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}) = (\alpha_S, \alpha_S)}$$の場合(つまりプレイヤー1のbetに対してプレイヤー2と3がそれぞれMDFに従ってcall)、プレイヤー1はbluff頻度を0にすることでEVを上昇させられる。
Nash均衡に含まれる戦略を採用した場合のEVが獲得できるEVの最低値を保証しないという1つ目の問題と、異なるNash均衡に含まれる戦略を組み替えた戦略組はNash均衡を成すとは限らないという2つ目の問題は、いずれも2人zero-sum gameでは発生しない。2人zero-sum gameでは、Nash均衡(に含まれる全ての戦略)がそのままGTO戦略(最適戦略)と呼べるような良い性質を常に持つのである(むしろ、2人zero-sum gameにおいてNash均衡に含まれる戦略のことをGTO戦略と定義することが自然である)。これらの事項は、maspy氏による記事によくまとまっている。Wizard blogでもmultiwayのNash均衡の性質に関する記述と3-plwayer Kuhn pokerのmodelを通した解説がある。
以上のような事実を踏まえた上で、実戦においてはNash均衡を再現するということ以上に「他のプレイヤーがmultiway特有のNash均衡(戦略の指針)を理解しているか」、「他のプレイヤーがどのような戦略を採っている(はず)か」、「どのようなプレイによって誰から誰へEVが流れるのか」というような視点がmultiwayにおいてはなおさら重要になる。
Nash均衡の選択と局所安定性
前章では、Nash均衡が一般に複数存在し、multiwayのgameでは複数存在するNash均衡の戦略の組み替えが許されない場合があることを指摘した。では、それら複数あるNash均衡の中でより優れたNash均衡というのは存在するのだろうか?
実際、このようなNash均衡の精緻化・選別は精力的に議論されてきた。例えば、Selten (1975)によるtrembling-hand perfect equilibriumでは、相手の微小なミス(摂動)に対しても最適反応戦略であり続けるような戦略としてrobustなNash均衡を選別した。Kreps & Wilson (1982)のperfect Bayesian equilibriumでは、動的なゲーム(展開型ゲーム)において逐次合理性とBayes則に基づく信念整合性によって時系列的な整合性を取ることで、Nash均衡で許されてしまうような到達確率が0の情報集合(ポーカーではnodeと呼ばれることが多い)での非現実的な"脅し"による戦略を排除した。また、Carlsson & van Damme (1993)は、各プレイヤーの利得に適当な分布に従うノイズを与えた上でその分散を0に近づける極限を取ることで、複数存在するNash均衡のうちリスク支配的な安全性の高いものを選別する枠組みを提示した。
このように複数存在するNash均衡からより優れたものを選ぶ基準や方法論はたくさん存在する。本稿では、Nash均衡の選択の基準として次に紹介する戦略のゆらぎに対する局所安定性を提案する。これにより、AJ-K-Q gameにおける連続的なNash均衡の集合からプレイヤー2と3に関して対称な(つまりプレイヤー1のbetに対して等しいfold頻度を持つ)解が選択されることを議論する。
AJ-K-Q gameのNash均衡において、プレイヤー2と3はプレイヤー1のbetに対するfold頻度が式(1)の$${\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}=\alpha_S}$$を満たしているのであった。この条件を満たす$${(\alpha_{\mathrm{K}},\alpha_{\mathrm{Q}})}$$の任意の組として$${(\alpha_{\mathrm{K}}^*,\alpha_{\mathrm{Q}}^*)}$$を取ってきたとする。この組に対して、独立同分布に従う小さなゆらぎを導入する。つまり、
$$ \begin{cases} \alpha_{\mathrm{K}}^* &\to \alpha_{\mathrm{K}}^* + \delta_{\mathrm{K}} \\ \alpha_{\mathrm{Q}}^* &\to \alpha_{\mathrm{Q}}^* + \delta_{\mathrm{Q}} \end{cases} \quad\quad (4) $$
のようにfold頻度に$${\delta_{\mathrm{X}}\;(\mathrm{X}=\mathrm{K, Q})}$$を加え、その期待値と分散がそれぞれ
$$ E[\delta_{\mathrm{X}}] = 0, V[\delta_{\mathrm{X}}] = \sigma_{\mathrm{X}}^2 \quad\quad (5) $$
となるような分布に従うものとする(ただし、$${\sigma_{\mathrm{X}} \ll 1}$$)。このゆらぎによって、プレイヤー2と3がNash均衡からずれてしまうが、その時の共同EV loss(つまりプレイヤー2と3の合計のEV loss)が最小になるような$${(\alpha_{\mathrm{K}}^*,\alpha_{\mathrm{Q}}^*)}$$の組を選択するということを行う。
まず、Nash均衡におけるプレイヤー1のEVは、式(2)を再び参照すると、
$$ \mathrm{EV}_{\mathrm{AJ}}^{\mathrm{NE}} = \frac{1+\alpha_S}{2} \quad\quad (2)' $$
で与えられる。プレイヤー2と3がNash均衡から離れて式(1)の条件を満たさないようなfold頻度になったとすると、$${\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} > \alpha_S}$$の場合はoverfoldになるので、プレイヤー1はbluff handのJをpure betすることがMES (= maximally exploitative strategy)となる。逆に、$${\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} < \alpha_S}$$の場合はovercallになるので、プレイヤー1はbluff頻度を0にすることがMESとなる。すると、MESによるプレイヤー1のEVは、
$$ \mathrm{EV}_{\mathrm{AJ}}^{\mathrm{MES}} = \begin{cases} \frac{1+\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}}{2} & (\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} > \alpha_S) \\ \frac{1+S(1-\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}})}{2} & (\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} < \alpha_S) \end{cases} \quad\quad (6) $$
となる。すると、MESによるプレイヤー1の追加EVは、式(2)'と(5)から、
$$ \Delta EV_{\mathrm{AJ}} := \mathrm{EV}_{\mathrm{AJ}}^{\mathrm{MES}} - \mathrm{EV}_{\mathrm{AJ}}^{\mathrm{NE}} = \begin{cases} \frac{1}{2}(\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} - \alpha_S) & (\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} > \alpha_S) \\ \frac{S}{2}(\alpha_S - \alpha_{\mathrm{K}}\alpha_{\mathrm{Q}}) & (\alpha_{\mathrm{K}}\alpha_{\mathrm{Q}} < \alpha_S) \\ \end{cases} \quad\quad (7) $$
となる。このAJ-K-Q gameはzero-sumであるから、プレイヤー2と3の共同EV lossは式(7)に等しく、式(7)をfold頻度のゆらぎの下で最小化すれば良い。ゆらぎが存在する時、
$$ \alpha_{\mathrm{K}}^*\alpha_{\mathrm{Q}}^* \to \alpha_{\mathrm{K}}^*\alpha_{\mathrm{Q}}^* + \alpha_{\mathrm{K}}^*\delta_{\mathrm{Q}} + \alpha_{\mathrm{Q}}^*\delta_{\mathrm{K}} + \delta_{\mathrm{K}}\delta_{\mathrm{Q}} \quad\quad (8) $$
となり、小さいゆらぎ($${\sigma_{\mathrm{X}}\ll 1}$$)の仮定に基づいて第4項の$${\delta_{\mathrm{K}}\delta_{\mathrm{Q}}}$$を無視すれば、共同EV lossの期待値は、
$$ \begin{align*} E[\Delta \mathrm{EV}_{\mathrm{AJ}}] &= \frac{1}{2}\left(\alpha_{\mathrm{K}}^*\left. E[\delta_{\mathrm{Q}}]\right |_{\delta_{\mathrm{Q}}>0} + \alpha_{\mathrm{Q}}^*\left. E[\delta_{\mathrm{K}}]\right |_{\delta_{\mathrm{K}}>0}\right) - \frac{S}{2}\left(\alpha_{\mathrm{K}}^*\left. E[\delta_{\mathrm{Q}}]\right |_{\delta_{\mathrm{Q}}<0} + \alpha_{\mathrm{Q}}^*\left. E[\delta_{\mathrm{K}}]\right |_{\delta_{\mathrm{K}}<0}\right) \\ &= \frac{1+S}{4}\left(\alpha_{\mathrm{K}}^* E|\delta_{\mathrm{Q}}| + \alpha_{\mathrm{Q}}^* E|\delta_{\mathrm{K}}|\right) + \frac{1-S}{4}\left(\alpha_{\mathrm{K}}^* E[\delta_{\mathrm{Q}}] + \alpha_{\mathrm{Q}}^* E[\delta_{\mathrm{K}}]\right) \end{align*} \quad\quad (9) $$
のように得られる。ただし、2行目は、
$$ \begin{align*} E[\delta_{\mathrm{X}}] &= \left.E[\delta_{\mathrm{X}}]\right |_{\delta_{\mathrm{X}}>0} + \left.E[\delta_{\mathrm{X}}]\right |_{\delta_{\mathrm{X}}<0} \\ E|\delta_{\mathrm{X}}| &= \left.E[\delta_{\mathrm{X}}]\right |_{\delta_{\mathrm{X}}>0} - \left.E[\delta_{\mathrm{X}}]\right |_{\delta_{\mathrm{X}}<0} \end{align*} \quad\quad (10) $$
を用いた。今、$${E[\delta_{\mathrm{X}}]=0}$$であり(式(5))、$${\delta_{\mathrm{K}}}$$と$${\delta_{\mathrm{Q}}}$$に対して同一の分布を仮定しているから、式(9)はさらに、
$$ E[\Delta \mathrm{EV}_{\mathrm{AJ}}] = \frac{1+S}{4}(\alpha_{\mathrm{K}}^* + \alpha_{\mathrm{Q}}^*) E|\delta_{\mathrm{X}}| \quad\quad (11) $$
と書き直せる。相加・相乗平均の関係式から、
$$ \alpha_{\mathrm{K}}^* + \alpha_{\mathrm{Q}}^* \geq 2\sqrt{\alpha_{\mathrm{K}}^*\alpha_{\mathrm{Q}}^*} = 2\sqrt{\alpha_S} \quad\quad (12) $$
であり、最小値を与えるfold頻度は、
$$ \alpha_{\mathrm{K}}^* = \alpha_{\mathrm{Q}}^* = \sqrt{\alpha_S} \quad\quad (13) $$
で与えられる。微小なゆらぎを2人のプレイヤーに等しく入れると、2人のプレイヤーは等しいfold頻度を持つただ1つのNash均衡が肯定される結果となる。今回はNash均衡周りのゆらぎの導入による局所安定性によってNash均衡の優劣を評価したが、前で紹介したようにNash均衡の選別基準は様々に存在し、状況や仮定によって選ばれるNash均衡が異なることを注意する。実際、例えばプレイヤー2と3に対するゆらぎをそれぞれ異なる分布に従うものとして仮定すると、異なるfold頻度をもつNash均衡が肯定されるようになる(およそ分布の分散の大小に応じてfold頻度の大小が決まる)。
Solver (GTO Wizard)による均衡解とその性質
それでは、solver (GTO Wizard)では複数の均衡が存在する場合にどれが選ばれているのだろうか。Solverは入力(レンジやbet size等)を決めると、基本的に(誤差の範囲内で)一つの均衡が毎回出力される。特に、GTO Wizardで導入された3wayのsolutionにおいては、異なる均衡の組み替えが許されない状況のため、複数の均衡のうちどのような性質のものが選択されているか知ることは非常に重要である。そこで本章では、GTO Wizardで用いられているquantal response equilibrium (QRE、質的応答均衡)に基づく計算からどのような均衡が出力される傾向にあるかを議論する。QREの詳細に関しては、以下の記事を参照↓↓
本章では、QREの一つのmodelであるlogit QRE (LQRE)に基づいて説明を行う(Logit QREについては上の記事を参照)。
LQREでは、各アクションの選択確率が(相手の戦略を固定した場合に)そのアクションのEVに対して指数関数的に決まるのであった。また、各プレイヤーの合理性は合理性パラメータと呼ばれる非負のパラメータによって制御され、合理性パラメータが0の極限で完全非合理的、$${\infty}$$の極限で完全合理的な均衡を与える。つまり、合理性パラメータを十分大きく取ることで、LQREはNash均衡のうちの一部に近づく。 GTO Wizardでは、LQREがQREのmodelとして採用されているとは明かされていないものの、このような仕組みでNash均衡に近いQREを得ている。
以下では、AJ-K-Q gameについてLQREを求める。プレイヤー1のAのbet頻度を$${p_{\mathrm{A}}}$$、Jのbet頻度を$${\alpha_{\mathrm{J}}}$$とし、プレイヤー1のbetに対するプレイヤー2のfold頻度を$${\alpha_{\mathrm{K}}}$$、プレイヤー2がfoldした場合にプレイヤー3がfoldする頻度を$${\alpha_{\mathrm{Q}}}$$、プレイヤー2がcallした場合にプレイヤー3がfoldする頻度を$${\alpha_{\mathrm{Q}}'}$$と置く。
プレイヤー1のbet後、プレイヤー2がcallまたはfoldするEVはそれぞれ、
$$ \begin{align*} \mathrm{EV}_{\mathrm{K;bc}} &= \frac{1}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(-S) + \frac{\alpha_{\mathrm{J}}}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(1+S+(1-\alpha_{\mathrm{Q}}')\cdot S) \\ \mathrm{EV}_{\mathrm{K;bf}} &= 0 \end{align*} \quad\quad (14) $$
で与えられる。プレイヤー1のbet後にプレイヤー2がfoldした場合、プレイヤー3がcallまたはfoldするEVはそれぞれ、
$$ \begin{align*} \mathrm{EV}_{\mathrm{Q;bfc}} &= \frac{1}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(-S) + \frac{\alpha_{\mathrm{J}}}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(1+S) \\ \mathrm{EV}_{\mathrm{Q;bff}} &= 0 \end{align*} \quad\quad (15) $$
となる。式(14)と式(15)の違いは、プレイヤー2がcallした後にプレイヤー3もcallするケースによるもので、式(14)の$${\mathrm{EV}_{\mathrm{K;bc}}}$$の最後の項に表れている。
プレイヤー1のbet後にプレイヤー2がcallした場合、プレイヤー3がcallまたはfoldするEVはそれぞれ、
$$ \begin{align*} \mathrm{EV}_{\mathrm{Q;bcc}} &= -S \\ \mathrm{EV}_{\mathrm{Q;bcf}} &= 0 \end{align*} \quad\quad (16) $$
である。従って、bet-call-foldに関するLQREの自己無撞着方程式を考えると、合理性パラメータを$${\lambda}$$として、
$$ \alpha_{\mathrm{Q}}' = \frac{e^{\lambda\cdot\mathrm{EV}_{\mathrm{Q;bcf}}}}{e^{\lambda\cdot\mathrm{EV}_{\mathrm{Q;bcc}}} + e^{\lambda\cdot\mathrm{EV}_{\mathrm{Q;bcf}}}} = \left(1+e^{-S\lambda}\right)^{-1} \quad\quad (17) $$
となる。Nash均衡に近い均衡解を考えるために、$${\lambda}$$として十分大きな値を考える。すると、式(17)は、
$$ \alpha_{\mathrm{Q}}' \sim 1-e^{-S\lambda} \quad\quad (18) $$
となり、bet-call-foldの頻度は指数関数的に極限値1に近づく。このような指数関数的漸近の振る舞いは、Nash均衡で本来純粋戦略となるような場合について見られる(→参考)。これを式(14)に適用すると、
$$ \begin{align*} \mathrm{EV}_{\mathrm{K;bc}} &= \frac{1}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(-S) + \frac{\alpha_{\mathrm{J}}}{p_{\mathrm{A}}+\alpha_{\mathrm{J}}}\cdot(1+S+Se^{-S\lambda}) \end{align*} \quad\quad (19) $$
を得る。bet-call-callに由来する最終項は、式(18)のために指数的に0に減衰することがわかる。従って、合理性パラメータ無限大の極限ではプレイヤー2と3に関するEVの表式(式(14)-(15))は急速に近づいていく。これは、プレイヤー2と3のfold頻度$${\alpha_{\mathrm{K}}, \alpha_{\mathrm{Q}}}$$に関するLQREの自己無撞着方程式が一致し、$${\alpha_{\mathrm{K}}= \alpha_{\mathrm{Q}}}$$となることを示している。本来AJ-K-Q gameではNash均衡は連続的に無限個存在するにも拘わらず、LQREの極限としてのNash均衡は$${\alpha_{\mathrm{K}}= \alpha_{\mathrm{Q}}}$$を満たす対称解一つのみとなってしまうのである。
[注意:より一般にはQREの極限としてのNash均衡は一つになるとは限らない。解には複数のブランチが存在し、極限値はブランチごとにそれぞれ別に存在する可能性がある]
なぜこのような対称解が選択されたのだろうか?素朴には、$${\lambda\to\infty}$$の極限でプレイヤー2と3が近似的に対称となっているからと言える。ここでは、別の視点として混合戦略のエントロピーという観点から眺めてみる。QREの記事の「補足:統計力学的アナロジー」で議論したように、LQREを求める問題は合理性パラメータを逆温度と見て自由エネルギーを最小化する問題として再定式化できる。自由エネルギーは内部エネルギーとエントロピーから成り、内部エネルギーはポーカーでは(混合)戦略のEV(に負号を付けたもの)を、エントロピーは混合戦略の乱雑さ(情報量)を表す。連続的に存在する無限個のNash均衡は、いずれも等しい内部エネルギー(EV)を与えるため、$${\lambda\to\infty}$$では各プレイヤーがエントロピーを大きくして自由エネルギーを低くするような戦略を選ぼうとする。一般に、プレイヤー$${i}$$の混合戦略$${P_i}$$に対するエントロピーは、
$$ S(P_i) = -\sum_{a_i}P_i(a_i)\ln P_i(a_i) \quad\quad (20) $$
と書ける。式(20)は、すべてのアクション$${a_i}$$に関してアクションの頻度$${P_i(a_i)}$$を等しく置くことが最大値を与えるから、AJ-K-Q gameにおいてはプレイヤー2と3はそれぞれのfold頻度を1/2に近づけることを目指す。しかし、式(1)の拘束条件があるために、両プレイヤーはこれを同時に達成することはできず、結果的にfold頻度を等しく釣り合わせて妥協する結果となる。
最後に、GTO Wizardを用いてAJ-K-Q gameのsolutionを実際に調べてみる。BB、UTG、BTNの3wayを用意し、BBはAAとJJを等確率で、UTGはKKをBTNはQQを持つとする[図5]。Riverの1streetのみ見るために、boardはflushを作らない22233に設定した上で、flopとturnは全てpure checkにnodelockする。Potは6bb、全プレイヤーのstackを2bb、no rakeとし、riverにおけるbetはall in (33% bet)のみを許すように設定した。
図6〜8にriverにおける各プレイヤーの戦略を示す。まず、BBはAAをpure betし、JJのうち25%をbet、75%をcheckする[図6]。JJのbet頻度はbet size 33%に対するアルファ$${\alpha_{S=1/3}=\frac{1/3}{1+1/3}=\frac{1}{4}}$$に等しく、前述のAJ-K-Q gameのNash均衡に一致している。BBのall in (33% bet)に対して、UTGのKKはcall or foldのindifferentになっており、50%をcall、残りの50%をfoldしている[図7]。UTGがfoldを選択した場合、BTNはUTG同様indifferentになり、callとfoldがそれぞれ50%ずつの頻度となっている[図8]。UTGとBTNのfold頻度の積($${0.5\times 0.5}$$)は$${\alpha_{S=1/3}=0.25}$$に等しく、AJ-K-Q gameのNash均衡の条件式(1)が成立し、MDFの共有が行われていることがわかる。さらに、Nash均衡のうちプレイヤー2と3(UTGとBTN)に関してfold頻度が等しい解が選ばれていることに注目したい。前章で議論したように、QREがエントロピーのバランスを取った対称解が実際に出力されている。
複数存在するNash均衡のうち、どの均衡に従うにしてもMDFの共有という観点からは、各プレイヤーは2人のgameにおけるfold頻度よりもより高頻度でfoldする必要がある。また、ゆらぎを考慮した局所安定性の議論からもQREの極限としてのNash均衡(GTO Wizardの出力)からも対称解が肯定されやすいことは興味深い。対称解は典型的なfold頻度を提供してくれるという意味で一つの基準になりうる。つまり、2人でMDFを共有する場合にはbet size $${S}$$対して、fold頻度を$${\sqrt{\alpha_S}}$$と設定すれば良い。この結果は$${N(\geq 2)}$$人でMDFを共有する場合にも応用できて、$${N}$$人のプレイヤーは$${\sqrt[N]{\alpha_S}}$$のfoldを持てばよい。この基準はWizard blogでも紹介されている。
[注意:実際にはキャッチハンドの強さやプレイ順序によって結果は異なる]




まとめ
本稿では、multiwayにおけるNash均衡の基本的性質を知るため、① AJ-Q-K gameと② AJ-K-Q gameという2つのmodelを考えた。これらの2つのmodelはheads-upにおけるAKQ gameの自然な拡張になっており、polarizeしたレンジを持つプレイヤーはvalueとbluffを適切な比率でbetしていくことが肯定される。①と②のmodelでは、強さの異なるキャッチハンドを持つ2人のプレイヤーのプレイ順序が異なることで、異なるNash均衡を生み出す。特に、②のAJ-K-Q gameでは、KとQを持つ2人のプレイヤーは各自のfold頻度の積を一定に保ち、共同でMDFを作り上げることがNash均衡となるという結果が示される。
一般にNash均衡は複数存在し、multiwayでは異なるNash均衡に含まれる戦略をプレイヤーごとに組み替えて新たな戦略組を作るとそれはNash均衡になるとは限らない。また、multiwayにおいてはNash均衡に最低限のEVを保証するという効力はなくなる。この2点によりmultiwayでのNash均衡に含まれる戦略はGTO戦略と呼べるような性質の良いものではないと言える。
複数存在するNash均衡のうちどれがより"最適"に近いものかというのを、優劣の基準を適切に設定することで議論することが可能であった。基準は様々に存在しうるが、本稿ではNash均衡周りでゆらぎを導入した時に最もEV lossが少ないというような評価基準でNash均衡を選別する方法を提示した。これによりAJ-K-Q gameではプレイヤー2と3のfold頻度について対称な解が選ばれることを示した。
GTO WizardではQREを用いて均衡解を出力している。一般に、QREの極限としてのNash均衡は、存在しうる全てのNash均衡のうちある一部のもののみに限られる。そのように選ばれたNash均衡は、各プレイヤーの混合戦略のエントロピーを最大化するようなものになりやすく、AJ-K-Q gameにおいては対称解のみが選ばれるという結果を与える。この結果は実際にGTO Wizardを用いて調べることによって確認された。
おわりに
この記事が参考になったら
ブックマークしていつでも見返せるようにしましょう!
Ctrl+D(Macは⌘+D)で追加できます。
この記事に誤りや不明点があれば、お気軽にご連絡ください。
✉️ 運営に連絡する