理論★★★★★📖 30分2026/6/11

EVの起源：Polarization EVとPolarizability EV

ポーカーのEVを構成する要素を equity EV・polarization EV・position EV に分解。さらにmulti-streetでのpolarizability(将来どの程度rangeがpolarizeするか)をbeta-[0,1] modelで定量化し、実戦スポットのrobustness/vulnerabilityと結びつける。

文責：しぐま (Twitter: @sigm_4)

本稿で議論すること

EVを構成する要素として、range EQ、position、rangeのpolarize度合い、rangeが将来的にどの程度polarizeするかといったものが挙げられる。
Rangeが将来的にどの程度polarizeするかをチューニングできるtoy modelとして、beta-[0, 1] modelを考案する。
現実のポーカーにおいて実際にどの程度の将来的なpolarize可能性があるのかを見積もり、modelと比較する。

EVの起源

この章では、Nash均衡において(＝お互いが相手のrangeを認識した上で合理的なプレイをする場合)EVがどのような要因によって発生するのかを振り返っていきます。

Half-street gameのEV：Equity EV、Polarization EV

初めに、half-street game (＝一方のプレイヤーのみがbet権を持つ場合)において自身のrangeがどのようであればより大きなEVを生めるか考えてみましょう。例えば、riverにおいて自身がIPにいるときにどのようなrangeを持っていれば嬉しいでしょうか？

当然nutsのみを所持していれば嬉しいでしょう。少し一般化すると、rangeのEQが高ければ自身のrange EVも高くなることが期待されます。このようにrange EQによって生まれるEVをequity EVと呼ぶことにしましょう(「EQ EV」と書くと読みづらいので、敢えてEQを綴っています)。

形式的には、equity EVはその時点でのpotをrange EQに従って分配したものとして定義します。

しかし、もちろんrange EQだけがEVを構成するわけではありません。

簡単な例として、次のスポットを見てみましょう[図1]。図1は、BTN vs. BB SRPで、KsQh5d-7h-Asにおいてxb 125%c-xb125%c-xと進んだ局面です。(註：以降提示するsolutionはGTO Wizard Cash 100bb 6max NL50 2.5x-GTOに基づきます)

[図1] BTN vs. BB SRP、KsQh5d-7h-Asにおいて、xb 125%c-xb125%c-xと進んだ局面。SolutionはGTO Wizard Cash 100bb 6max NL50 2.5x-GTOによる。

図1を見ると、BTNとBBのEQはそれぞれ62.99%、37.01%です。一方、BTNとBBのEVはそれぞれpotの76.06%、18.61%になります(rakeのために合計は100%になりません)。BTNは、EQよりも13pt.程度EVが高くなっています。この差は何によってもたらされているでしょうか？

ここでEQグラフを見ると、BTNはBBに対してrangeがpolarizeしていることがわかります。このpolarizeしたrangeを活かして、high-EQ handとlow-EQ handでBBのmarginalなrangeを挟み込むようにbet (all in)することでEVを稼いでいるようです。

このような状況は、いわゆるAKQ modelで良く記述されます。上記の状況に即して、IPがAまたはQをそれぞれ63%と37%の確率で持ち、OOPはKを100%の確率で持つとしましょう。この時、IPのEQは63%となり、図1の状況とよく似ています。Half-streetでIPのみにpot betが許されている場合のNash均衡では、IPがAとQを2:1の割合でbetし、potの94.5%のEVを獲得することになります[図2]。

[図2] IPがAまたはQをそれぞれ63%と37%の確率で持ち、OOPはKを100%の確率で持つ場合のAKQ model。Nash均衡では、IPがAとQを2:1の割合でbetする。

つまり、このmodelにおいては、IPのrangeがpolarizeしていることでrange EQが示すよりも大きなEVを獲得できるというわけです。このようなrangeのpolarizeの程度によって発生するEVのことを、本稿ではpolarization EVと呼びます(一部の界隈では、distribution EVという言葉が充てられることがあります)。

今回のAKQ modelのケースでは、(IPのEV) = (Equity EV) + (Polarization EV) となっているということです。具体的には、0.945 = 0.63 + 0.315 のような内訳です。

図1の実際のケースでは、このAKQ modelに比べてIPのrangeのpolarize具合が小さい(IPのtrash handの割合がmodelよりも少ない代わりにhigh-EQ handの分布がOOPと近接している)ために、BTNのpolarization EVが小さく、得られるtotal EVも小さいというように解釈できます。

極端なケースとして、range EQが両者で完全に一致していてもpolarization EVによってtotal EVを得ることもできます。これはAとQの割合が1:1になっている場合の(最もよく見る形の)AKQ modelで実現します。この場合にはお互いが50%ずつのEQを有していますが、AQ側はrange全体のbet頻度に対応して(pot betのみを許容する場合には)total EVとしてpotの3/4を獲得できます。この時、polarization EVはequity EVの1/2に相当します。さらにbet sizeを無限大に大きくすれば、極限としてpolarization EVはequity EVと等しくなります。AKQ modelの含蓄の一つは、このpolarization EVだったわけです。

ここで、polarization EVは何か厳密な定義が存在するものではないことを注意しておきます。しかし、あえて比較的厳密に定義するのであれば、次のようになりそうです。

(Polarization EV) = [(互いのrangeを入れ替えた時に失うEV)−(入れ替えで失うequity EV)]/2

この定義に従うと、両者のrangeが全く同一であればpolarization EVは自明に0になります。

註：例えば、お互いにA、K、Qを持ち合うようなhalf-street gameを考えると、equity EVはpotの50%になり、polarization EVは0になります。しかし、bet権が与えられているプレイヤーは追加で有限のEVを獲得することができます。このようなactionの非対称性によるEVは確かに存在しますが、少なくとも実際のポーカーの各street開始時におけるEVの分割には寄与しないので、特に深入りしないことにします。

Full-street gameにおけるEV：Position EV

ここまでで、half-street gameを通してEVを生むファクターとして、range EQとpolarizationという2つを見てきました。ここでgameをhalf-streetからfull-streetに拡大することを考えます。すなわち、OOPとIPそれぞれにbet権が1度ずつ与えられているような場合です。この時も、range EQとpolarizationはやはりEVに対して影響を与えます。しかし、これだけではありません。お互いのpositionの良し悪しがEVに影響を及ぼします。つまり、OOPかIPかということです。

このことを見るために、full-streetの[0, 1] modelを見てみましょう。

Full-street [0, 1] model
・OOPとIPのプレイヤーはそれぞれ、閉区間$[0, 1]$から独立な一様分布に従って1つずつ実数を選択する。
・OOPプレイヤーは先にbet(またはcheck)を行うことができ、checkした場合にはIPプレイヤーもbet(またはcheck)を行うことができる(= full-street)。
・双方のプレイヤーは相手のbetに対してcallまたはfoldを選択し、raiseは禁止する。
・Pot sizeは1、bet sizeをpot size (=1)に固定する。
・いずれかのプレイヤーのbetにもう一方のプレイヤーがcallした場合と、お互いがcheckした場合はshowdownを行い、最初に選択した実数が大きいプレイヤーがその時点のpotを獲得する。

Bet sizeを一般的にした場合のmodelのNash均衡については、こちらの記事を参照してください。Nash均衡の概要を述べると、OOPがhigh-EQ handとlow-EQ handを用いてpolarizeしたbetを行い、OOPのcheckに対してはIPがやはりhigh-EQ handとlow-EQ handを用いてpolarizeしたbetを行います。図3にはこのNash均衡を図示しています。

ここで重要なのは、IPの方がOOPよりもvalue betの下限を下げてより多くのhandでbetを行うことができるという点です。OOPは先にhigh-EQ handをbetに逃してしまうために、IPはOOPのcondensedなcheck rangeをより効率的に虐められるという構造です。これによってIPはOOPよりも大きなEVを獲得します。

註：このmodelには、閾値戦略にならないような別のNash均衡も存在しますが、ここでは割愛します。

Bet sizeをpot sizeに固定した場合には、IPとOOPのEVはそれぞれ、13/24と11/24になります。お互いのrangeが全く同一であることから、equity EVはIPとOOPともに1/2で、polarization EVは0です。つまり、EVの残りの部分はpositionの差によって生じたものと考えることができます。これをposition EVと呼ぶことにしましょう。つまり、full-streetのgameでは、(Total EV) = (Equity EV) + (Polarization EV) + (Position EV) のように分割することができます。Bet size 1のfull-street [0,1] modelの場合には、IPに関して、13/24 = 1/2 + 0 + 1/24 という内訳になります。

Position EVも形式的に定義するのであれば次のようにするのが自然でしょう。

(Position EV) = (互いのrangeはそのままにpositionのみを入れ替えた時に失うEV)/2

ここまでで出てきたequity EV、polarization EV、position EVについてfull-street版に書き換えた上で定義をまとめます。

(Equity EV) = (Pot額) × (range EQ [%])/100
(Polarization EV) = [(互いのpositionはそのままにrangeのみを入れ替えた時に失うEV)−(入れ替えで失うequity EV)]/2
(Position EV) = (互いのrangeはそのままにpositionのみを入れ替えた時に失うEV)/2

復習を兼ねて2つの例を見てみましょう。

例1：Full-street AKQ model

先ではhalf-street gameとしてのAKQ modelを見てみましたが、比較的自明な応用例としてfull-streetのAKQ modelを確認してみましょう。ここでは、bet sizeをpot sizeに固定します。Modelの詳細は以下の通りです。

Full-street AKQ model
・OOPプレイヤー：Kを持つ。
・IPプレイヤー：AまたはQを等確率で持つ。
・OOPのプレイヤーは先にbet(またはcheck)を行うことができ、checkした場合にはIPのプレイヤーもbet(またはcheck)を行うことができる(= full-street)。
・相手プレイヤーのbetに対してはcallまたはfoldの選択肢があり、raiseは禁止する。
・Pot sizeは1、bet sizeをpot size (=1)に固定する。
・いずれかのプレイヤーのbetにもう一方のプレイヤーがcallした場合と、お互いがcheckした場合はshowdownを行い、カードのランクの大きいプレイヤーがその時点のpotを獲得する。

このmodelのNash均衡は、よく知られているように、Kを持つOOPは必ずcheckし、IPはAの全て、Qのうち1/2をbetするというものです。この場合にOOPとIPが得るEVを、range構成を明示してそれぞれ$\mathrm{EV}^{\mathrm{OOP,\,K}},\; \mathrm{EV}^{\mathrm{IP,\,AQ}}$と書くことにしましょう。具体的には、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\, K}} &= \frac{1}{4} \quad\quad (1) \\ \mathrm{EV}^{\mathrm{IP,\, AQ}} &= \frac{3}{4} \quad\quad (2) \end{align*} $$

です。

以下では、両者のEVをequity EV、polarization EV、position EVに分割してみます。

まず、お互いのrange EQが50%ずつであることから、OOPとIPのequity EVはそれぞれ

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{equity}} = \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{equity}} = \frac{1}{2} \quad\quad (3) \end{align*} $$

です。

次に、polarization EVを計算するために、positionは替えずにrangeのみ入れ替えます。OOPにAとQ、IPにKを与えた場合のNash均衡では、AQ側は入れ替え前と同様にAを必ずbet、Qを1/2の割合でbetします。K側はAQ側のcheck後はcheck backして終了となります。そのため、EVは入れ替えに依らずAQを持つ側は3/4、Kを持つ側は1/4となります。つまり、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,K}} &= \mathrm{EV}^{\mathrm{IP,\,K}} = \frac{1}{4} \quad\quad (4) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}} &= \mathrm{EV}^{\mathrm{OOP,\,AQ}} = \frac{3}{4} \quad\quad (5) \end{align*} $$

となります。これより、OOPとIPそれぞれのpolarization EVは、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{polarization}} &= (\mathrm{EV}^{\mathrm{OOP,\,K}}-\mathrm{EV}^{\mathrm{OOP,\,AQ}})/2 = -\frac{1}{4} \quad\quad (6) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{polarization}} &= (\mathrm{EV}^{\mathrm{IP,\,AQ}}-\mathrm{EV}^{\mathrm{IP,\,K}})/2 = \frac{1}{4} \quad\quad (7) \end{align*} $$

と計算できます。

そして、position EVはrangeは入れ替えずにpositionのみを入れ替えてEVの差を取ることで計算できるのでした。つまり、OOPとIPのそれぞれのposition EVは、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{position}} &= (\mathrm{EV}^{\mathrm{OOP,\,K}}-\mathrm{EV}^{\mathrm{IP,\,K}})/2 = 0 \quad\quad (8) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{position}} &= (\mathrm{EV}^{\mathrm{IP,\,AQ}}-\mathrm{EV}^{\mathrm{OOP,\,AQ}})/2 = 0 \quad\quad (9) \end{align*} $$

です。以上をまとめると、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,K}} &= \mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{equity}} +\mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{polarization}} +\mathrm{EV}^{\mathrm{OOP,\,K}}_{\mathrm{position}} = \frac{1}{2} - \frac{1}{4} + 0 \quad\quad (10) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}} &= \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{equity}} +\mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{polarization}} +\mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{position}} = \frac{1}{2} + \frac{1}{4} + 0 \quad\quad (11) \end{align*} $$

となります。

例2：Full-street AKQJ model

これまで見てきた例は、equity EV、polarization EV、position EVのうちいずれかが両プレイヤーで等しいまたは0になるような場合でした。最後に、これらのいずれもがプレイヤー間で異なるような、より発展的なAKQJ modelを眺めてこの章を締めくくります。Full-street AKQJ modelは以下のようなmodelです。

Full-street AKQJ model
・OOPプレイヤー：KまたはJを等確率で持つ。
・IPプレイヤー：AまたはQを等確率で持つ。
・OOPのプレイヤーは先にbet(またはcheck)を行うことができ、checkした場合にはIPのプレイヤーもbet(またはcheck)を行うことができる(= full-street)。
・相手プレイヤーのbetに対してはcallまたはfoldの選択肢があり、raiseは禁止する。
・Pot sizeは1、bet sizeをpot size (=1)に固定する。
・いずれかのプレイヤーのbetにもう一方のプレイヤーがcallした場合と、お互いがcheckした場合はshowdownを行い、カードのランクの大きいプレイヤーがその時点のpotを獲得する。

AKQ modelとほとんど同じですが、OOPプレイヤーがKだけではなく、KまたはJを持つようになった点が異なります。このmodelのNash均衡はAKQ modelと似ていて、OOPはrange check、IPはAを必ず、Qを1/2の割合でbetします。図4にこのNash均衡を図示しています。OOPとIPのEVはそれぞれ、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,KJ}} &= \frac{1}{8} \quad\quad (12) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}} &= \frac{7}{8} \quad\quad (13) \end{align*} $$

となります。

[図4] Full-street AKQJ modelのNash均衡。IPがAまたはQ、OOPがKまたはJを持つ。

これを再びequity EV、polarization EV、position EVに分割していきましょう。まず、equity EVは簡単で、OOPとIPがそれぞれ25%と75%のrange EQを持つため、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{equity}} &= \frac{1}{4} \quad\quad (14) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{equity}} &= \frac{3}{4} \quad\quad (15) \end{align*} $$

です。

次に、polarization EVを計算するため、rangeを交換した場合を考えます。OOPがAまたはQ、IPがKまたはJを持った場合のNash均衡は、元のmodelとだいぶ異なります。Range入れ替え後のNash均衡は次の通りです。

まず、AまたはQを持つOOPは、Aのうち4/5をbet、1/5をcheckし、Qのうち2/5をbet、3/5をcheckします。OOPのbetに対して、IPはKのうち3/5をcall、2/5をfold、Jは必ずfoldします。OOPがcheckした場合、IPはKのうち2/5をbet、3/5をcheck、Jのうち1/5をbet、4/5をcheckします。IPのbetに対して、OOPはAを必ずcall、Qのうち1/3をcall、2/3をfoldします。図5にこのNash均衡を図示しています。

[図5] IPとOOPのrangeを入れ替えた場合のfull-street AKQJ modelのNash均衡。IPがKまたはJ、OOPがAまたはQを持つ。

つまり、AまたはQを持つOOPはAをbetでたくさん使ってしまうと、check rangeが弱くなりすぎてしまうためにAを適切にcheckに残して、IPのK(とJ)をbet or checkのindifferentになるようにします。入れ替え後のOOPとIPのEVはそれぞれ、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,AQ}} &= \frac{17}{20} \quad\quad (16) \\ \mathrm{EV}^{\mathrm{IP,\,KJ}} &= \frac{3}{20} \quad\quad (17) \end{align*} $$

となります。したがって、OOPとIPのそれぞれのpolarization EVは、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{polarization}} &= [(\mathrm{EV}^{\mathrm{OOP,\,KJ}}-\mathrm{EV}^{\mathrm{OOP,\,AQ}})-(\mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{equity}}-\mathrm{EV}^{\mathrm{OOP,\,AQ}}_{\mathrm{equity}})]/2 = -\frac{9}{80} \quad\quad (18) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{polarization}} &= [(\mathrm{EV}^{\mathrm{IP,\,AQ}}-\mathrm{EV}^{\mathrm{IP,\,KJ}})-(\mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{equity}}-\mathrm{EV}^{\mathrm{IP,\,KJ}}_{\mathrm{equity}})]/2 = \frac{9}{80} \quad\quad (19) \end{align*} $$

と計算できます。そして、position EVは、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{position}} &= (\mathrm{EV}^{\mathrm{OOP,\,KJ}}-\mathrm{EV}^{\mathrm{IP,\,KJ}})/2 = -\frac{1}{80} \quad\quad (20) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{position}} &= (\mathrm{EV}^{\mathrm{IP,\,AQ}}-\mathrm{EV}^{\mathrm{OOP,\,AQ}})/2 = \frac{1}{80} \quad\quad (21) \end{align*} $$

です。以上をまとめると、

$$ \begin{align*} \mathrm{EV}^{\mathrm{OOP,\,KJ}} &= \mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{equity}} +\mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{polarization}} +\mathrm{EV}^{\mathrm{OOP,\,KJ}}_{\mathrm{position}} = \frac{1}{4} - \frac{9}{80} - \frac{1}{80} \quad\quad (22) \\ \mathrm{EV}^{\mathrm{IP,\,AQ}} &= \mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{equity}} +\mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{polarization}} +\mathrm{EV}^{\mathrm{IP,\,AQ}}_{\mathrm{position}} = \frac{3}{4} + \frac{9}{80} + \frac{1}{80} \quad\quad (23) \end{align*} $$

となります。式(23)を見てみると、AまたはQを持つIPはtotal EVのうち約85.7%がequity EVから、約12.9%がpolarization EVから、約1.4%がposition EVから来ている、というように定量化することができます。

Multi-streetにおけるEVの発生

ここからさらに、実際のポーカーに状況を近づけていきましょう。1-streetではなくmulti-streetの場合には新たにどのような要因によってEVがもたらされると言えるでしょうか？次のstreetに進むことによって追加のcommunity cardが出て、互いのrangeのpolarizationが変化することを考慮する必要があるはずです。

本稿では、rangeのpolarizationが後続するstreetでどの程度polarizeするかを表す概念としてpolarizabilityという言葉を充てます。

例えば、turnで自range内のhandの集合に対するEQ分布を眺めた時に、50%付近に局在していたとしましょう。仮想的にお互いが全てのhandをcheck-checkで回してriverに進んだとすると、そのriver cardによって自rangeのEQ分布が変化します。あるriver cardに対してはそのままcondensedなrangeが保持され、別のriver cardに対してはrangeがpolarizeされるというようなことが起こるでしょう。このようなrange polarizationの変化の可能性を(range )polarizabilityと呼びましょう。

以下では、polarizabilityを記述し、定量化するためのmodelを見ていきます。

Polarizabilityを記述する：beta-[0, 1] model

Modelとしては、[0, 1] modelをベースに、streetを跨ぐとpolarizationが変わるということを取り込んだ次に定義するbeta-[0, 1] modelを考えます。

Beta-[0, 1] model
・OOPとIPのプレイヤーはそれぞれ、閉区間$[0, 1]$から独立な一様分布に従って1つずつ実数を選択する。
・2つのstreetにわたってプレイを行う。簡単のため、いずれのstreetでもstreet開始時にOOPは強制的にcheckをし、IPのみにbet権が与えられているものとする。
・OOPはIPのbetに対してcallまたはfoldを選択し、raiseは禁止する。
・初期pot sizeは1、bet sizeをいずれのstreetにおいてもpot sizeに固定する(1 street目では1、betが入った場合の2 street目では3)。
・IPに関して、1 street目で選ばれたhand $h_1$は、2 street目では確率密度分布$\beta(h_2|h_1, \kappa)$に従って$h_2$に変化する(ただし、$h_2\in [0, 1]$)。ここで、$\beta(h_2|h_1, \kappa) = \frac{h_2^{\kappa h_1-1}(1-h_2)^{\kappa(1-h_1)-1}}{B(\kappa h_1, \kappa (1-h_1))}$は第一種beta分布で、$B(\alpha, \beta)$はbeta関数、$\kappa$は非負の定数とする。

IPのhandの発展のさせ方が少々込み入っていますが、大雑把に言うと次の通りです。1 street目ではhandの強さが$[0, 1]$区間からランダムに選ばれます。選ばれたhandを$h_1$としましょう。2 street目では、handの強さが$h_1$でとどまらずに、別の強さ$h_2$に変化します。$h_2$は$h_1$と全く無相関に選ばれるわけではなく、平均的には$h_1$の強さになるように調整されています。つまり、

$$ \begin{align*} E[h_2|h_1, \kappa] := \int_0^1 h_2\beta(h_2|h_1, \kappa)\,dh_2 = h_1 \end{align*} $$

が成り立ちます。一方、$h_2$がどの程度幅を持って$h_1$から広がるかはパラメータ$\kappa$で制御されます。$h_2$に対する分散について、

$$ \begin{align*} V[h_2|h_1, \kappa] := \int_0^1 (h_2-h_1)^2\beta(h_2|h_1, \kappa)\,dh_2 = \frac{h_1(1-h_1)}{\kappa+1} \end{align*} $$

が成り立ちます。ここで、

$$ \begin{align*} a:=\frac{1}{\kappa+1} \; (0 < a < 1) \end{align*} $$

と定数を置き直せば、$a$が各handの分散の大小を決める形になります。以下では、$\kappa$の代わりに$a$を用いて進めます。具体的にいくつかの$a$と$h_1$についてbeta分布を見てみましょう[図6]。

[図6] 左から順にh1=0.1, 0.5, 0.9の場合のbeta分布。青、緑、赤線はそれぞれ分散を決めるパラメータa=0.01, 0.1, 0.5の場合を表している。点線はグラフに対応するh1(分布の期待値)を示している。

図6には、左から順に$h_1=0.1,\, 0.5,\, 0.9$の場合のbeta分布を示しています。各グラフには$a=0.01,\, 0.1,\, 0.5$の場合がそれぞれ青、緑、赤線で描かれています。パラメータ$a$の値が小さい時(青線)には分散は小さくなっていて、1 street目でのhandの強さ$h_1$の周囲に重点的に発展する形になります。一方で、$a$の値が大きい時(赤線)には分散が大きくなり、両端の0と1の付近にpolarizeして発展するような状況を作り出します。Handの平均的な強さはstreetを跨いでも変わらないものの、handの強さの分散(＝polarizability)は$a$に応じてチューニングされるというわけです。

以下に、いくつかの$a$の値についてNash均衡を示します。なお、このmodelのNash均衡は手計算で解析的に求めることは困難なため、$[0, 1]$の連続的なrangeを離散化した上で、CFRを用いた自作toy model solverによって数値的に計算します。離散化は$[0, 1]$区間を50個のbinに分割し、exploitabilityはpotの0.1%未満の精度で収まるようにしています。

まず、計算の確認のために$a=10^{-4}$の結果を眺めて見ましょう[図7]。図7の各棒グラフの横軸はbin化したhandの強さ、縦軸は1 street目における各binの量を100%とした時の相対的な量を表します。

[図7] Beta-[0, 1] modelのa=10^-4の場合のNash均衡。横軸はbin化したhandの強さ、縦軸は1 street目における各binの量を100%とした時の相対的な量を表す。

図7を見ると、2 streetにわたってpolarizeしたbetが行われていることがわかります。ただし、x? nodeやxbc-x? nodeにおいて、bluff betまたはvalue betが閾値戦略のようになっていません。これはこのmodelのNash均衡に自由度があるためです。例えば、xbc-x? nodeでは、OOPのxbcのrangeに弱いhandが存在しないために、IPは2 street目にEQが0のどのhandをbluffに採用しても構わないわけです。

$a=10^{-4}$という小さい値の時には、IPのhandの強さはstreetを跨いでほとんど変化しません。$a\to 0$の場合の完全にstaticなmodelで、連続的なrangeを用いる(離散化していない)場合には、Nash均衡(の1つ)が手で求まります。それに基づくと、OOPとIPのEVはそれぞれ、$\frac{148}{363}\simeq 0.4077$と$\frac{215}{363}\simeq 0.5923$になります。$a=10^{-4}$の場合にsolverから得たOOPとIPのEVはそれぞれ、0.4106と0.5894となっています。50個のbinに離散化することで、potの2%程度は連続的な場合とずれても良さそうですから、おそらくsolverはきちんと正しく動いているでしょう。Solverの結果を信じて先を見てみましょう。

図8・図9にはそれぞれ$a=0.1$と$a=0.5$の結果を示します。

[図8] Beta-[0, 1] modelのa=0.1の場合のNash均衡。横軸はbin化したhandの強さ、縦軸は1 street目における各binの量を100%とした時の相対的な量を表す。

[図9] Beta-[0, 1] modelのa=0.5の場合のNash均衡。横軸はbin化したhandの強さ、縦軸は1 street目における各binの量を100%とした時の相対的な量を表す。

$a$を大きくしていくと、IPが2 street目で大きくpolarizeできるようになることを反映して、marginalなhandもbet頻度が持てるようになっていることがわかります。

ここで、$a$を変化させていった時にEVがどのように変化していくか見てみましょう[図10]。図10には、$a$を変化させた場合のOOPとIPのEVの変化の様子をプロットしています。IPのpolarizabilityが上がることで、後のstreetでよりpolarizeすることが可能となり、単調にIPのEVが上昇しています。

[図10] Beta-[0, 1] modelにおいてpolarizabilityパラメータaを変化させたときのIP(赤線)とOOP(青線)のEVの変化の様子。

Polarizability EVは、現実的なポーカーに直接適用できる形で明確に定義することは困難です。およその概念としては、polarizability EVは「お互いのrangeの全てのhandの強さが後続するstreetで変わらないとした場合に失うEV」のようなものになるはずです。これに基づくと、少なくともこのmodelにおいては、$a=0$の場合のEVからの差分をpolarizability EVとして定めて良いでしょう。

具体的なスポットから

実際のポーカーでは、polarizabilityは次の意味で2種類のpolarizationの変化を含んでいます。Turnからriverに進んだ場合を思い描くと、1つ目は、1つのriver cardに注目したときにrangeのpolarizationが変化する分、2つ目は、どのriver cardが選ばれるかという意味での変化分です。

先ほどのbeta-[0, 1] modelでは、streetが進んだ時点で両プレイヤーに共通して与えられる新情報(＝river card)はなく、単にIPのrangeがhandごとに強さ(のpolarization)が変化するという形でmodel化を行っていました。実際のポーカーでは、river cardを固定したときにはhandの強さ(EQ)は固定されるので、modelの状況とは異なります。しかし、turn時点での同じようなEQ帯のdrawをひとまとめに一つのhand群として考えたとすると、状況は類似しています。つまり、そのdraw群は単一のriver cardに対して、一部はdrawが完成して強いhandに進展し、一部はriver cardにhitすることでmarginalなEQを持ち、残りはdrawが全く進展せずtrash handになる、というような分布を作ることになります。River cardごとにその分布は異なりますが、beta-[0, 1] modelではそのようなriver cardごとの詳細は忘れて、"平均的な"river cardに対する記述を行っているような形になります。

さて、前章で議論したbeta-[0, 1] modelでは、rangeのpolarizabilityをチューニングするパラメータとして、$a$という値を用いていました。$a$によって、hand $h_1$は後続するstreetでhandの強さが$ah_1(1-h_1)$の分散を持っていました。実際のポーカーではこの$a$の値はどの程度なのでしょうか。

例として次のスポットを見てみましょう。図11は、BTN vs. BB SRPで9s7s4h-Jdのboardに対してxx-xと進んだ局面です。Flopのcheck aroundとturnのOOP checkを経ているため、お互いのEQ分布は比較的近接しています。

[図11] BTN vs. BB SRP 9s7s4h-Jdのboardにおいて、xx-xと進行した局面。SolutionはGTO Wizard Cash 100bb 6max NL50 2.5x-GTOによる。

ここで、river cardとして8hが落ちてGSSDが完成する場合に関して、EQの分布の変化を追ってみます。図12には、BTNのxx-x? range内の各handがriver cardによってBBのxx-x rangeに対してのEQが変化する様子を示しています。黒いダイヤモンド印は、10%ごとの各turn EQ bin内のhand群に対するriverでのEQの平均、エラーバーはそのEQの標準偏差を表します。

[図12] BTN vs. BB SRP 9s7s4h-Jd-8hにおいて、BTNのxx-x? range内の各handがriver cardによってBBのxx-x rangeに対してのEQが変化する様子を示している。黒いダイヤモンド印は、10%ごとの各turn EQ bin内のhand群に対するriverでのEQの平均、エラーバーはそのEQの標準偏差を表す。ãはbeta-[0, 1] modelに基づいたpolarizabilityパラメータで、riverにおけるbin内の平均EQをh、標準偏差をσとした時、ã=σ^2/(h(1-h))で計算している。

各turn EQ binに対して、beta-[0, 1] modelに照らし合わせたpolarizabilityの指標$\tilde{a}$を次のように計算しています。Riverにおけるbin内の平均EQを$h$、標準偏差を$\sigma$とした時、

$$ \begin{align*} \tilde{a} = \frac{\sigma^2}{h(1-h)} \end{align*} $$

で与えます。Beta-[0, 1] modelにおいては、強さ$h_1$のhandについて後続するstreetでの強さの分散がpolarizabilityパラメータ$a$を用いて

$$ \begin{align*} \sigma^2 = a\,h_1(1-h_1) \end{align*} $$

が成立していました。これを実際のポーカーでは、(riverにおける)handのEQの平均と分散から逆にpolarizabilityパラメータを見積もったという形になります。図12には、各turn EQ binに対して計算した$\tilde{a}$の値を書いています。$\tilde{a}$は、各binによってかなりばらつきがあります。低EQのhand群は比較的$\tilde{a}$が大きめで0.1〜0.5付近、高EQのhand群は比較的$\tilde{a}$が小さめで0.1以下の値を取っています。

全river cardについて$\tilde{a}$の平均を取ると、図13のようになります。Turn EQ binに対する依存性だけでなく、river cardごとに$\tilde{a}$の値に大きな差が出ます。

先ほど見たriver card 8hはdraw cardを多く発展させるようなものであったため、低EQ hand群で$\tilde{a}$が大きくなっていましたが、Jや9などのboardにpairを作るriver cardや2cなどのどちらのrangeにもほとんど関連しないようなriver cardに対しては、多くのEQ binに関して$\tilde{a}$が$10^{-2}$のオーダーまで小さくなります。これらの全てのriver cardに関する平均を取ると、低EQ hand群では0.2程度、高EQ hand群では0.02程度の値を取っているようです。

註：Turn EQをbinで区切っていることで、そのEQ bin内に元々EQの分散が生じていますが、そのbin内に一様にhandが分布していることを仮定すると、$\tilde{a}$としては(EQ binに依りますが)0.005程度が自然に生じます。

[図13] 全river cardに対するãの平均(ã mean)と標準偏差(ã std)を10%ずつのturn EQ binごとに示す。

Range polarizationがどの程度後続するstreetでpolarizeするかを示す概念として(range )polarizabilityを導入しましたが、上記のようにhand(群)ごとのpolarizabilityを見てみると、これはEQのrobustness/vulnerabilityといった概念と類似していることに気づくと思います。

あるhandに対するrobustなEQ成分というのは、(厳密な定義は存在しませんが、)相手のrangeが変化した場合に減少しないEQ成分のことを指します。かなり平たく言い換えると、弱いhandに関してはdrawとしてnutsクラスのhandに昇格するような可能性のことを、強いhandに関しては弱いhandにどのくらい捲られにくいかということを指し示す用語です。つまり、この節の冒頭でpolarizabilityに関して説明した、2種類のpolarizationの変化のうち2つ目に挙げた「どのriver cardが選ばれるかという意味での変化分」に該当するものです。Polarizabilityは、「1つのriver cardに注目したときにrangeのpolarizationが変化する分」も含むため、やや広い意味を持つ言葉になります。

まとめ

本稿では、ポーカーにおいてどのようなファクターによってEVが発生するかを再確認しながら定式化をしてきました。Half-streetの状況からは、基本的なEVの発生源としてequity EV、polarization EVが出てきました。これらは、それぞれrange EQ、range polarizationから発生するEVです。さらに、full-streetの状況からは、自然にposition EVが登場しました。こちらは、OOP/IPのpositionの劣位性/優位性によって生じるEVでした。そして、2-streetの状況を考えると、1 street目のrange polarizationが2 street目にどの程度polarizeするかという要因がEVを増減させることがわかりました。こちらを本稿ではpolarizability EVと呼ぶことにしました。

このpolarizability EVが発生する様子は、beta-[0, 1] modelを考えることで具体的に見ることができました。Beta-[0, 1] modelは、polarizabilityを1パラメータ$a$でチューニングできるmodelで、このpolarizabilityパラメータを具体的なスポットからhand群ごとに見積もるということを行いました。

また、polarizabilityという概念は、EQのrobustness/vulnerabilityという概念を内包していることも確認しました。Robustness/vulnerabilityはこれまで明確に定量化される量としては定義されていませんでした。そこで今回、polarizabilityの指標をEQから指標を計算する方法を提示しました。Rangeやhand群に関して、EQだけでは記述できない性質を特徴づける量として、solverへの実装やtoy modelの解析等で参考になれば幸いです。