Rich Zhu在2+2论坛发表的GTO理论(下)

  • 1100
  • A+

Rich Zhu在2+2论坛发表的GTO理论(下)


Rich Zhu与GTO理论(上):https://www.moshike.com/a/1788.html 

1. GTO的定义是什么?

A:GTO是一种基于NE(纳什均衡)的游戏策略。纳什均衡适用于非合作博弈/零和博弈。纳什均衡定义:在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。一个策略组合被称为纳什均衡,是当每个博弈者的支配性策略都是为了达到自己期望收益(EV)的最大值,与此同时,其他所有博弈者也遵循这样的策略。根据以上,GTO策略的定义就是每个完全理性的博弈者都达到自己期望收益(EV)的最大值的策略组合。

2. GTO是一种不会输的策略吗?

A:任何策略都会输,这是NLH的波动性(或样本方差)决定的。GTO策略当然也会输,但是我们从定义上可得,采用GTO策略,你哪怕输,也不会损失EV。长期(long run)来看,一个重复进行的游戏,你的获得的价值必将等于你策略的EV值。

3. 那么长期是多长?

A:长期是一个统计学的概念。在CASH中,长期和你的百手盈利和session方差有关;在MTT/SNG中,长期和你的ROI(投资回报率)和比赛盈亏方差有关。具体计算方法可见前面的专栏。


4. GTO是一种防守的策略吗?

A:错。GTO是一种攻守兼备的策略,它具有不亚于LAG的各种进攻技巧。


5. 两个GTO选手一起打,不是都输给Rake吗?

A:Rake与GTO策略无关,无论你采用什么策略游戏,都会输Rake。哪怕你是盈利的,也是Rake后的盈利。

6. 初学者学GTO是错误吗?

A:恰恰相反。对于初学者,没有ABC、TAG、LAG等先入为主的策略的影响,反而更容易理解掌握正确的扑克理论。无论初学者学不学GTO,掌握GTO背后的全EV公式,都是至关重要的。

2+2论坛


7. 剥削策略比GTO策略EV更高吗?

A:如果不基于均衡的策略,你的剥削策略将无从谈起。首先识别到对手有漏洞(应用贝叶斯法则),那么有多少的漏洞可供利用,有没有数学上的依据?所以必须掌握GTO策略才能用好MES策略。如果对手是一个前述有固定漏洞的玩家,MES确实比GTO的EV更高。但是对于一个不稳定易变的或极端聪明的玩家,采用剥削策略也可能被反剥削。综合来看,对于陌生的对手,GTO策略无疑是EV最大化的更好选择。

8. 对手不用GTO,我用GTO策略有没有用?

A:在双人游戏中,对手的漏洞造成的EV损失,你采用GTO策略会自动获利。这是零和游戏的基本特点。因此你采用GTO策略是完全有效的。

9. 合作博弈不能用GTO策略?

A:这个游戏的基础就是非合作博弈,如果存在有意的合作博弈,你用任何策略都打不赢。这不是用不用GTO策略的问题。

10. 多人池能不能用GTO策略?

A:多人博弈也存在NE,这是角谷不动点定理证明过的。但是,多人博弈可能存在多个纳什均衡点,当你执行其中一个均衡策略时,别人有可能执行另外一个,你的GTO策略可能不是EV最大化的选择。因为第三方的漏洞造成的EV损失,你并不会自动获得。但是GTO策略(执行一个均衡点)仍是有意义的,这会保证你的保底EV。

11. 多人池NE能用软件计算吗?

A:复杂的多人博弈的NE,2018年奈望林纳奖Daskalakis证明多人博弈纳什均衡是一个PPAD-Complete问题(PPAD代表有向图的多项式校验参数),所以想以多项式解得多人博弈的纳什均衡解还是很有难度。目前MonkerSolver的多人池解是采用了大量的抽象方法,可以参考。

12. 锦标赛能不能用GTO策略?

A:可以。但是,对于锦标赛,$EV和chipEV在不同阶段并不一致,参考Icmizer。我们通常的策略、计算和solver的设置都是对Cash的,也就是算的是chipEV。严格来说,在锦标赛中,我们应该考虑的$EV最大化的GTO策略。

13. Push or Fold跟GTO策略有关系吗?

A:目前所有的Push or Fold计算器,包括Icmizer、HRC等,用的都是NE解。我们前面说过,GTO策略就是NE策略,所以你用所有软件的Push or Fold就是GTO策略。

2+2论坛

14. Pokersnowie是GTO策略吗?

A:Pokersnowie是一个基于人工智能AI的无限注德州扑克软件。它已经学会了玩各种各样的无限注德州扑克,从单挑到10人局,从小筹码局一直到非常深的筹码局(400个大盲注)。PokerSnowie的根基是人工神经网络。它通过自我对弈,训练出最大化EV的策略,这是一种形而上的求解GTO策略的方式。但是由于下注尺度的限制,它的GTO策略的dEV(纳什距离)离真正的GTO还差得很多。一个良好训练的牌手,在Snowie的下注尺度限制下,对AI应该能达到15bb/HH的领先优势。

15. Solver是人工智能吗?

A:不是。Solver是严格按照EV公式不断逼近接近纳什均衡解,完全没有AI的要素。

16. Solver解就是GTO策略吗?

A:这和模型建立有关,越精确的模型越接近纳什均衡解,越接近GTO策略。但是,完全的GTO解不可能达到,也没有意义。对于一个混合策略,21%和20%的精确差距没有必要完全解得。

17. Solver的解算都是超近道吗?

A:这种说法是无知的。Solver是逐渐逼近纳什均衡解,并不是超近道。如果说GTO解是一个圆,Solver的解就是一个内接多边形,范围越准确,策略树越完善,这个内接多边形就越接近于圆。因为目前计算机的能力,无法穷举所有的策略树,适当的下注尺度抽象是无法避免的。但是,Solver解毕竟是目前最接近于GTO策略。

2+2论坛

18. 为什么Solver一定要输入翻牌面Board?

A:算法上没有一定要输入翻牌面的必要。翻前有169个同构面,翻牌有1755个同构面。正是因为计算机能力的不足,所以我们才要输入翻牌。如果有一天,计算机能力无限强大,那么我们无须输入翻牌面、无须输入策略树,甚至无须输入翻前范围,就可以得到完整的GTO策略。

19. 用Solver解算就不需要懂原理?

A:Solver的解算结果确实有很多我们不能理解。但是请相信,所有的解算结果都是通过全EV公式计算出的。你要了解的是,EV计算公式,这也是所有策略的根本。

20. Solver的计算方法跟Libratus一样吗?

A:Solver的计算方法是逆向归纳法,用全EV公式从河牌开始算起,倒推翻牌的行动,所有的转牌河牌面计算好以后再进行加权聚合。Libratus采用的是MCCFR(蒙特卡洛反事实遗憾最小化),从原理上来说,和Snowie的ANN神经网络更为接近。

21. Exploititave Play有计算软件吗?

A:Solver就是最好的Exploititave Play计算软件。Exploititave Play实际上是PBE(精炼贝叶斯纳什均衡),通过贝叶斯公式推断对手的漏洞点,利用翻前范围或节点锁定输入软件,得到MES解。MES解的准确度除了和GTO解一样外,还跟贝叶斯推断的准确度有关。

22. Action频率是GTO的关键吗?

A:个人观点:执行GTO策略不用特别考虑频率。频率是多次行动的综合,你首先要保证的是行动线的正确,不能有Off-tree的行动。比如下注20%,过牌80%,你以任何比例去选择混合策略,单手牌的EV都是一样的。关键在于你的后续行动,不能脱离整个策略树。

23. 下注尺度是GTO的关键吗?

A:个人观点:对于复杂范围(非ToyGame)来说,基本上任何一个下注尺度都是合理的,都是有相应的纳什均衡的。只要你能正确选择对应下注尺度的正确范围,下注尺度并不重要。所以关键的还是行动线和避免Off-tree。

24. GTO策略一定要用翻前NE范围吗?

A:个人观点:和行动频率一样,你的单手牌并不用特别考虑频率,例如AA 4bet-50%,call 50%之类。你只需要知道这手AA有4bet和call的两种选择就可以。长期的统计才带来频率。因此,翻前是否严格采用NE范围并不重要,你可以按NE范围的频率和接近牌力,设计自己舒适的翻前范围。

25. 如何用Solver/AI练习GTO?

A:个人观点:Snowie的AI适合练习翻前范围和HU,通过长期训练对各个位置的范围形成肌肉记忆。HU的训练会大大提高你翻后的能力。而Solver Trainer(如GTO+的PAS)是对行动线训练的最好工具,具体方法见以前专栏。

2+2论坛

 6 

德州扑克到底用不用学习

其实,说起来这个话题两方都有不同的观点,他们可能是从科研学术的角度来论述。

我从玩家的角度来说,个人认为,学习不学习GTO,对你成绩的提高并不是最重要的。每个人首先要明确你打牌的目的。简单把国内玩家做一下分类。

1.娱乐玩家。有的人打牌就是为了娱乐,他资金管理的很好,每月投入几千元娱乐就好像一个喜欢打游戏的人充值一样。只享受过程。

2.半娱乐玩家。之所以这么区分,是他们还有一套自己的理论,成绩基本上也是能够持平,甚至略盈利,打牌的主要目的还是娱乐。

3.半职业玩家。他们的水平总体领先,扑克收入对他的生活有一定影响。但不是主业。

4.职业玩家。这部分人是处于扑克行业金字塔顶端的人群。他们每天致力于研究扑克博弈。高水平玩家。


对于2+2论坛的娱乐玩家来说,不用学习。你的目的是娱乐。好像有的人是被虐待狂一样,有的人享受失败的过程。


对于半娱乐玩家来说,也可以不学习。享受的过程还能体会盈利的美妙,岂不快哉!


对半职业和职业玩家来说,学习是必要的。目前除了找教练学习外,自己通过软件模拟构建对手的范围,选择适合的行动是可行的。对顶尖职业玩家来说,已经是行业内的5%了,想进入到3%是很难的过程。这个提高可能就是一个1%的ev差距。有的是通过学习的,有的是天分,真的是没法学习的。


但是你可以提高自己选桌的能力。可以提高自己情绪控制,来弥补。


你打扑克的目的是什么?是为了赢吗?我多次说过,田忌赛马,去多花时间挑选牌桌。能大大提高你的盈利。比赛另论。


德州扑克







德州扑克