2+2论坛 - 德州扑克

1100

A+

Rich Zhu在2+2论坛发表的GTO理论（下）

Rich Zhu与GTO理论（上）:https://www.moshike.com/a/1788.html

1. GTO的定义是什么？

A：GTO是一种基于NE（纳什均衡）的游戏策略。纳什均衡适用于非合作博弈/零和博弈。纳什均衡定义：在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。一个策略组合被称为纳什均衡，是当每个博弈者的支配性策略都是为了达到自己期望收益（EV）的最大值，与此同时，其他所有博弈者也遵循这样的策略。根据以上，GTO策略的定义就是每个完全理性的博弈者都达到自己期望收益（EV）的最大值的策略组合。

2. GTO是一种不会输的策略吗？

A：任何策略都会输，这是NLH的波动性（或样本方差）决定的。GTO策略当然也会输，但是我们从定义上可得，采用GTO策略，你哪怕输，也不会损失EV。长期（long run）来看，一个重复进行的游戏，你的获得的价值必将等于你策略的EV值。

3. 那么长期是多长？

A：长期是一个统计学的概念。在CASH中，长期和你的百手盈利和session方差有关；在MTT/SNG中，长期和你的ROI（投资回报率）和比赛盈亏方差有关。具体计算方法可见前面的专栏。

4. GTO是一种防守的策略吗？

A：错。GTO是一种攻守兼备的策略，它具有不亚于LAG的各种进攻技巧。

5. 两个GTO选手一起打，不是都输给Rake吗？

A：Rake与GTO策略无关，无论你采用什么策略游戏，都会输Rake。哪怕你是盈利的，也是Rake后的盈利。

6. 初学者学GTO是错误吗？

A：恰恰相反。对于初学者，没有ABC、TAG、LAG等先入为主的策略的影响，反而更容易理解掌握正确的扑克理论。无论初学者学不学GTO，掌握GTO背后的全EV公式，都是至关重要的。

2+2论坛

7. 剥削策略比GTO策略EV更高吗？

A：如果不基于均衡的策略，你的剥削策略将无从谈起。首先识别到对手有漏洞（应用贝叶斯法则），那么有多少的漏洞可供利用，有没有数学上的依据？所以必须掌握GTO策略才能用好MES策略。如果对手是一个前述有固定漏洞的玩家，MES确实比GTO的EV更高。但是对于一个不稳定易变的或极端聪明的玩家，采用剥削策略也可能被反剥削。综合来看，对于陌生的对手，GTO策略无疑是EV最大化的更好选择。

8. 对手不用GTO，我用GTO策略有没有用？

A：在双人游戏中，对手的漏洞造成的EV损失，你采用GTO策略会自动获利。这是零和游戏的基本特点。因此你采用GTO策略是完全有效的。

9. 合作博弈不能用GTO策略？

A：这个游戏的基础就是非合作博弈，如果存在有意的合作博弈，你用任何策略都打不赢。这不是用不用GTO策略的问题。

10. 多人池能不能用GTO策略？

A：多人博弈也存在NE，这是角谷不动点定理证明过的。但是，多人博弈可能存在多个纳什均衡点，当你执行其中一个均衡策略时，别人有可能执行另外一个，你的GTO策略可能不是EV最大化的选择。因为第三方的漏洞造成的EV损失，你并不会自动获得。但是GTO策略（执行一个均衡点）仍是有意义的，这会保证你的保底EV。

11. 多人池NE能用软件计算吗？

A：复杂的多人博弈的NE，2018年奈望林纳奖Daskalakis证明多人博弈纳什均衡是一个PPAD-Complete问题（PPAD代表有向图的多项式校验参数），所以想以多项式解得多人博弈的纳什均衡解还是很有难度。目前MonkerSolver的多人池解是采用了大量的抽象方法，可以参考。

12. 锦标赛能不能用GTO策略？

A：可以。但是，对于锦标赛，$EV和chipEV在不同阶段并不一致，参考Icmizer。我们通常的策略、计算和solver的设置都是对Cash的，也就是算的是chipEV。严格来说，在锦标赛中，我们应该考虑的$EV最大化的GTO策略。

13. Push or Fold跟GTO策略有关系吗？

A：目前所有的Push or Fold计算器，包括Icmizer、HRC等，用的都是NE解。我们前面说过，GTO策略就是NE策略，所以你用所有软件的Push or Fold就是GTO策略。

2+2论坛

14. Pokersnowie是GTO策略吗？

A：Pokersnowie是一个基于人工智能AI的无限注德州扑克软件。它已经学会了玩各种各样的无限注德州扑克，从单挑到10人局，从小筹码局一直到非常深的筹码局（400个大盲注）。PokerSnowie的根基是人工神经网络。它通过自我对弈，训练出最大化EV的策略，这是一种形而上的求解GTO策略的方式。但是由于下注尺度的限制，它的GTO策略的dEV（纳什距离）离真正的GTO还差得很多。一个良好训练的牌手，在Snowie的下注尺度限制下，对AI应该能达到15bb/HH的领先优势。

15. Solver是人工智能吗？

A：不是。Solver是严格按照EV公式不断逼近接近纳什均衡解，完全没有AI的要素。

16. Solver解就是GTO策略吗？

A：这和模型建立有关，越精确的模型越接近纳什均衡解，越接近GTO策略。但是，完全的GTO解不可能达到，也没有意义。对于一个混合策略，21%和20%的精确差距没有必要完全解得。

17. Solver的解算都是超近道吗？

A：这种说法是无知的。Solver是逐渐逼近纳什均衡解，并不是超近道。如果说GTO解是一个圆，Solver的解就是一个内接多边形，范围越准确，策略树越完善，这个内接多边形就越接近于圆。因为目前计算机的能力，无法穷举所有的策略树，适当的下注尺度抽象是无法避免的。但是，Solver解毕竟是目前最接近于GTO策略。

2+2论坛

18. 为什么Solver一定要输入翻牌面Board？

A：算法上没有一定要输入翻牌面的必要。翻前有169个同构面，翻牌有1755个同构面。正是因为计算机能力的不足，所以我们才要输入翻牌。如果有一天，计算机能力无限强大，那么我们无须输入翻牌面、无须输入策略树，甚至无须输入翻前范围，就可以得到完整的GTO策略。

19. 用Solver解算就不需要懂原理？

A：Solver的解算结果确实有很多我们不能理解。但是请相信，所有的解算结果都是通过全EV公式计算出的。你要了解的是，EV计算公式，这也是所有策略的根本。

20. Solver的计算方法跟Libratus一样吗？

A：Solver的计算方法是逆向归纳法，用全EV公式从河牌开始算起，倒推翻牌的行动，所有的转牌河牌面计算好以后再进行加权聚合。Libratus采用的是MCCFR（蒙特卡洛反事实遗憾最小化），从原理上来说，和Snowie的ANN神经网络更为接近。

21. Exploititave Play有计算软件吗？

A：Solver就是最好的Exploititave Play计算软件。Exploititave Play实际上是PBE（精炼贝叶斯纳什均衡），通过贝叶斯公式推断对手的漏洞点，利用翻前范围或节点锁定输入软件，得到MES解。MES解的准确度除了和GTO解一样外，还跟贝叶斯推断的准确度有关。

22. Action频率是GTO的关键吗？

A：个人观点：执行GTO策略不用特别考虑频率。频率是多次行动的综合，你首先要保证的是行动线的正确，不能有Off-tree的行动。比如下注20%，过牌80%，你以任何比例去选择混合策略，单手牌的EV都是一样的。关键在于你的后续行动，不能脱离整个策略树。

23. 下注尺度是GTO的关键吗？

A：个人观点：对于复杂范围（非ToyGame）来说，基本上任何一个下注尺度都是合理的，都是有相应的纳什均衡的。只要你能正确选择对应下注尺度的正确范围，下注尺度并不重要。所以关键的还是行动线和避免Off-tree。

24. GTO策略一定要用翻前NE范围吗？

A：个人观点：和行动频率一样，你的单手牌并不用特别考虑频率，例如AA 4bet-50%，call 50%之类。你只需要知道这手AA有4bet和call的两种选择就可以。长期的统计才带来频率。因此，翻前是否严格采用NE范围并不重要，你可以按NE范围的频率和接近牌力，设计自己舒适的翻前范围。

25. 如何用Solver/AI练习GTO？

A：个人观点：Snowie的AI适合练习翻前范围和HU，通过长期训练对各个位置的范围形成肌肉记忆。HU的训练会大大提高你翻后的能力。而Solver Trainer（如GTO+的PAS）是对行动线训练的最好工具，具体方法见以前专栏。

2+2论坛

6 德州扑克到底用不用学习

其实，说起来这个话题两方都有不同的观点，他们可能是从科研学术的角度来论述。

我从玩家的角度来说，个人认为，学习不学习GTO，对你成绩的提高并不是最重要的。每个人首先要明确你打牌的目的。简单把国内玩家做一下分类。

1.娱乐玩家。有的人打牌就是为了娱乐，他资金管理的很好，每月投入几千元娱乐就好像一个喜欢打游戏的人充值一样。只享受过程。

2.半娱乐玩家。之所以这么区分，是他们还有一套自己的理论，成绩基本上也是能够持平，甚至略盈利，打牌的主要目的还是娱乐。

3.半职业玩家。他们的水平总体领先，扑克收入对他的生活有一定影响。但不是主业。

4.职业玩家。这部分人是处于扑克行业金字塔顶端的人群。他们每天致力于研究扑克博弈。高水平玩家。

对于2+2论坛的娱乐玩家来说，不用学习。你的目的是娱乐。好像有的人是被虐待狂一样，有的人享受失败的过程。

对于半娱乐玩家来说，也可以不学习。享受的过程还能体会盈利的美妙，岂不快哉！

对半职业和职业玩家来说，学习是必要的。目前除了找教练学习外，自己通过软件模拟构建对手的范围，选择适合的行动是可行的。对顶尖职业玩家来说，已经是行业内的5%了，想进入到3%是很难的过程。这个提高可能就是一个1%的ev差距。有的是通过学习的，有的是天分，真的是没法学习的。

但是你可以提高自己选桌的能力。可以提高自己情绪控制，来弥补。

你打扑克的目的是什么？是为了赢吗？我多次说过，田忌赛马，去多花时间挑选牌桌。能大大提高你的盈利。比赛另论。