Rich Zhu与GTO理论(上)

  • 416
  • A+


近期微博上关于GTO的讨论热烈起来,起因是智游城论坛站长rich zhu 在英文的2+2论坛上发了一篇关于GTO的文章。引起来中外德州爱好者的热烈讨论,知乎上有一个网友给出来反对意见,这里给广大爱好者们梳理一下......我们作为德州爱好者,应该理性辩证的看待对方提出的观点,结合自己的实际情况,选择适合自己的学习方法,调整自己的打法,修正自己的漏洞,逐步提高自己的赢率。

 1 

Rich Zhu是谁?

Rich Zhu,国内主流德州扑克网站,智游城论坛站长。祖籍辽宁,1985年毕业于清华大学,获电子工程学士;同年进入北京大学,88年获电子工程硕士;在核工业部计算机应用研究所工作两年后赴美,获威斯康星大学电子工程博士;之后做过不同的工作,目前是一家物联网创业公司的技术主管。Rich为前FTP Friend of Full Tilt Poker及大发扑克大使。Rich也是智游城、扑士杂志等多个扑克相关网站和产品的创始人和参与者。

Rich 自幼酷爱棋牌,象棋/军棋/跳棋/飞行棋及各式扑克无所不好。在大学、研究生及赴美攻读博士期间陆续学会国际象棋/围棋/桥牌/21点(Blackjack)及各式wsop扑克。Rich曾代表北大参加校际象棋、围棋及桥牌的比赛,是最早一批京华杯参赛者,(首届代表北大象棋,第二届代表北大围棋)以校友队身份获90年清华校庆桥牌邀请赛冠军,以及在美攻读博士期间代表威斯康星大学获94年全美大学桥牌赛中西部赛区第二名。

2018年,Rich Zhu获得WSOP主赛事第十名,更是刷新国人纪录。

Rich Zhu是一名真正大德州扑克大腕。

 2 

GTO到底是什么

我们先得了解学习下到底什么是GTO?GTO是Game Theory Optimal(博弈论最优)的缩写。Solver软件帮助我们了解GTO扑克策略,但真正的GTO策略仍是未知的(这就是标题中的GTO被打上引号的原因)。 


 3 

Rich Zhu在2+2论坛说了什么

作为一个一辈子的棋牌爱好者,也因为我的学士、硕士和博士论文都碰巧涉及大量计算机模拟和数值分析,从80年代末期开始,我就一直密切关注游戏理论和相应软件。我对所有模型和理论持开放观点。公平地说,GTO是一个好模型。但是,我也非常清楚,任何模型都有它的局限性。模拟世界可能发生的最坏情况就是,你有一个大家公认的好模型,但你不注意它的限制条件,把模型给出的任何结果都当作真理。很不幸,这正是GTO理论和它的应用在扑克上发生的事。


这篇文章不是在讨论GTO理论,而是在阐述整个扑克界如何被GTO误导,以及它如何不应该地伤害了扑克的成长。基于这样的原因,让尽量多的普通牌手可以尽量看得明白是本文的重点。我也将以这样的考量来构建本文。


1)让我们从推动这个GTO疯狂扩张背后的两个神话开始


A)“长远地讲,GTO是不可能输的”


实际上,你是可能输的。纳什均衡是关于非合作博弈的,这是这个模型的前提。显然,扑克牌局中不一定每个参与者都是在非合作博弈。有时候,你会遇到合伙作弊的;有时候,桌上某个玩家就是看你不顺眼,宁可自己吃亏也要整你,导致在底池里的第三家获利。


更糟糕的是,牌手并不需要像前面例子那样,故意打破你“不可能输”的美梦。其它牌手可能完全没有意识到他们不是在玩优化策略,但仍然可以无意之中让你的GTO成为输钱的策略。游戏理论或者算法并不区分骗子和傻子。你们的打法一样,你们就是一样的。


所以,理论上说,在任何有两个以上牌手的扑克游戏中,GTO策略都不能保证它不是一个输钱的策略。


即便是两人对打,也必须是没有抽水才行。想象一下,两人都玩完美的GTO,谁也赢不了对方,抽水来自哪里?当然来自两个输家。


所以,让我来修正一下这个“GTO不可能输钱”的说法:在两人对打且没有抽水的前提下,GTO打长了是不会输钱的。(严格地说,你仍然可能输,但是那是另外一个话题了)


你上一次打这样的游戏是什么时候?大概还是在儿时跟你弟弟在地下室里玩吧?不过你知道,在那个游戏中GTO不是最好的策略。


B)“我知道GTO在我的游戏中可能不是最好的策略,但我可以使用它来判断对手玩得如何,从而最有效地剥削他的弱点”


事实上,我们只知道GTO存在,我们并不知道它是什么,除了一些过分简化的游戏条件。


现在你来告诉我:如果你不知道GTO的应对是什么,你如何把它当作标准来判断你的对手?


2)这个神秘的GTO到底是什么?


我回答不了这个看上去极为简单的问题。


我花了十多年的时间寻找答案,到现在也没有找到一个坚实的定义。如果你做谷歌搜索,你可以看到关于GTO的各种解释,但没有正式定义或数学表达。有的说,它只是纳什均衡的代名词,有的说是零和游戏中的纳什均衡,有的说是扑克中的,有的说是无限德州里的纳什均衡,当然还有其它数不尽的更为模糊的定义。甚至有些干脆避开这个定义,直接使用大量的空间解释这个GTO有多么强大。


不管对一个特定网站或者教练GTO定义是什么,但它的核心内容其实是某种形式的纳什均衡,这也是为什么本文一开始就是使用纳什均衡而不是GTO来讨论问题。


一个统治整个行业十多年的热门理论居然没有正式的定义,是不是太奇怪了?


任何一个GTO玩家都会告诉你,这是一个混合策略。在定义的混合方面,他们做得真不错,尽管定义原本需要像白天黑夜那样清晰。


事实上,我不知道我该不该称呼GTO为“理论”。如果你在dictionary.com上查看“科学理论”,你得到的是“一组相关的表述公式化成。。。”。如果你在dictionary.cambridge.org查找“理论”的定义,你得到“规则的规范表述。。。” ,我不认为GTO可以通过“科学理论”的测试,甚至不能通过更广泛的“理论”测试。


好吧,我们姑且称之为GTO理论。我更关心的是,为什么GTO如此热门,而纳什均衡相比而言却很苍白。毕竟GTO的内容是从纳什均衡借过来的,何况纳什均衡与整个游戏界最深邃的大脑以及贡献者之一的名字是连在一起的。


答案是超级清晰的:这个神奇的词汇“Optimal”。当大家谷歌Optimal,得到的是“最优”、“最有利的”,谁不想玩“游戏理论最佳”?遗憾的是,GTO中的“O”并不是这个意思。


也许,使用GTO这个词汇来吸引更多的牌手学习游戏理论并不是一个差主意,如果能在后面合适的情况下修正牌手对GTO概念的误解。不幸的是,这样的事从来没有发生。更糟糕的是,GTO被进一步神话成扑克的终极打法。


这一切都很不错,直到这个行业无法继续承受。

3)这个GTO狂热给扑克成长带来的伤害


如果是纯粹为了讨论一个游戏模型,我是不会写这篇文章的。真正让我难受的是它对扑克成长带来的伤害。


A)GTO理论和相应工具的作用被极度夸大


“GTO solver”,“GTO trainer”现在是真热。如果你不使用其中的一个工具来讨论你的牌例,你会自动被划为old school,没人想听你说什么。


扑克玩家被洗脑到如此程度,似乎没有什么人注意到这些solvers/trainers并不是真正的GTO 解算器/训练器。


时不时,你会看到有人声称他的软件是最接近GTO的。这可能是真的,就如同水星是最接近太阳的。但我们都知道,水星不是太阳。有一些简化的情况这些解算器是可以使用的。但超出那个范围,更大量的情形和场景,它很快就变得没有用处。


不要指责写这些软件的工程师。一个GTO解算器需要如此多的资源,这些软件的算法需要大量的抄近路才能使这个软件可以工作。


B)误导牌手们相信GTO是这个游戏未来的玩法,甚至已经成为现实的玩法


毫无疑问,人工智能会很快击败人类。但那并不等于游戏会按AI方式去玩。


深蓝在1997年击败人类最好的国际象棋选手,23年之后,人类仍然以人类的方式玩这个游戏。


2016年,谷歌的Alphago震惊了人工智能世界和围棋世界,4:1击败人类顶尖棋手,随后又60:0击败顶级职业围棋选手。此前的一年,人们还普遍认为,由于游戏的复杂性,至少需要另外一个十年AI才可能击败人类职业围棋手。


但是,人类围棋手仍然以人类的方式在玩围棋。事实上,AlphaGo团队也承认,AlphaGo对他们来说,就是一个黑匣子。


如果人类国际象棋/围棋选手无法训练得像AI那样下棋,有什么理由会让任何人觉得人类可以像AI那样打扑克?对于象棋和围棋,目标是简单的(赢),途径是相对清晰的(树搜索),信息是完全的。相比之下,人类学着像AI那样打牌会更加困难。这世上根本不存在所谓的人类GTO牌手,在人类大脑植入强力芯片之前都不会有这样的牌手。人类的大脑根本不适于这样的信息存储和处理。


这就如同,尽管我们知道汽车跑的比人快和有效率,马拉松运动员还是不能在地上滚以试图动得更快。人类没有构造成那样。


或者,我们可以有一个更轻松的思考推理:在人类学会像AI那样玩之前,如果最终真的会出现,我们所熟知的扑克早就消亡了。


底线是:GTO过去不是,现在不是,将来也不会是“正确的”打牌方式。


C)它的学习曲线很糟糕,产生大批量的平庸牌手


除了模型局限性和算法抄近路,还有一个问题是任何牌手使用任何模型都会遇到的:他们必须理解他们所使用的模型/算法/参数。由于缺少对GTO的理解,连正规定义都没有,没有多少牌手清楚他们自己在干什么。这一点,毫不奇怪。


当牌手找一个传统教练而对他们自己的进度不满意的时候,他们会怪教练不够好。当牌手尝试GTO的方式而觉得自己卡在那里,他们会怪自己不够努力。


现实是,他们会很快遇到瓶颈,很少的希望会走过去。加上不情愿尝试其他方式,他们注定成为平庸的牌手,只有极少数极有天分的例外。


D)GTO优越感让牌局变得不愉快


这种心态批量产生傲慢的GTO牌手。有些GTO牌手的傲慢真的会让牌局变得很不愉快。


很多牌手宗教般的执行GTO/解算器给出的结果。我看过很多5/10rmb(小于$1/2)的解说员信心满满地批评这些高额牌手。信心是哪里来的?“GTO 解算器”。具有讽刺性的是,有些高额玩家不断谈论这些解算器如何帮助提高他们的水平,然后看到最低级别的牌手使用同样的软件批评他们:“所有人都知道,现场高额玩家的打牌策略明显偏离GTO策略”。


你不能怪他们。他们相信你让他们相信的东西,他们做了你要他们做的事。很自然,当你的粉丝发现你没有打终极策略,他们着急啊。他们觉得这些批评来自于真理产生器,不是来自于最小级别的他们。


而当这类牌手在一个没有大牌牌手的桌子上谈牌时,真的可以做到超级恼人。


E)GTO让一些牌手望而生畏


我听过很多牌手,包括一些出成绩的牌手说:我就不是数学那块料。潜台词是,他们放弃在这个游戏上的进一步提高。通常我会这样回复:扑克不需要很多数学,观察、推理、执行力都比数学重要。


但是,他们还是觉得处于一个无法消除的劣势,尽管对大多数牌手在大多数情况下,根本不是一个关键因素。


所以,这些年关于这个GTO真正发生的,就是使用一个神化的学习系统给整个扑克界洗脑。这系统是基于一个模型的伪算法,而这个模型反应真实世界具有严重局限性,并且这个模型从来没有完整展示给大众,甚至连模型的定义都没有。


结果就是,这个系统毫无悬念地产出大量傲慢平庸的牌手,游戏在各个方面都变得更糟。它同时鼓吹GTO的虚假威力,并洗脑不信GTO的不会得到这些,因而在一个次级水平而无法提高,这也会赶走一些潜在的玩家。


4)GTO的正面效果


如果我不说一些好话,对GTO是不公平的。


A)GTO帮助推广平衡的概念


任何一个GTO爱好者都会告诉你平衡的概念有多重要。这是一件好事,因为平衡的概念确实是扑克中最重要的概念。


但是,别想多了,以为扑克中对平衡的真正理解始于GTO。不是这么回事。如果你阅读超级系统第一版,或者伟大的扑克大脑比如David Sklansky或者Mike Caro的早期文章,这些东西都在。其实,平衡的概念早在2400年前,柏拉图就已经做过精细的阐述。


B)GTO提高牌手使用计算机工具的意识


在这个摩登时代,有很多工具可以帮助牌手提升他们的游戏水平。作为一个副产品,GTO会带动牌手尝试各种软件,尽管他们中很多人根本分不清哪些软件可以划归到GTO软件。


C)有些游戏环境下GTO是有用的


这些准GTO软件有用的一个游戏环境是超级豪客赛。如果你看一下这些牌手,他们一般非常敏锐,可以快速找到对手的弱点;他们之间水平非常接近;游戏通常是浅码并且主要是两人池。所有这些结合在一起,加上高额买入,使得牌手值得用这个软件反复试验,或者仅仅是寻找一些盲点和灵感。


但是即便是豪客赛,GTO解算器的作用在一些文章里也被高估了。这些牌手达到那里是因为他们的天赋和努力。一个残酷的事实是,扑克是一个严重依赖牌手天分的游戏。甚至对于那些GTO推广者,他们受益于他们从粗糙工具提炼有益信息的能力。而这一点并不适用他们推销软件的大众。GTO训练有价值的部分几乎永远来自于自学的那一部分,而不是培训者/指导者。



5)这篇文章希望获得什么?


我希望整个行业能近距离审视这个GTO现象。在过去的十多年,它更多的是因为市场推广的原因被使用,对扑克的成长有负净值效果。


我认为整个行业早就应该实事求是地称呼GTO和相关工具:一个好的模型,和用处有限的工具。


或者,如果你依然宗教般地推崇GTO和相关工具,在推广给新人玩家的时候,先停下来思考一下。


我不反对现代化训练,我甚至不希望看到GTO这个词汇消失。但说实在的,扑克更关键的在于使用大脑,而不是使用工具。你可以使用这些工具训练自己,但你永远不能用这些工具替代你的大脑。


让我们把扑克作为一个人类的游戏保持下去,让玩牌重新成为一件快乐的事。


6)为什么我终于还是决定写一篇英文的GTO文章


尽管过去多年我写了很多中文帖子和回复提醒大家警惕这个GTO狂热,我一直约束自己不要在英文平台发表我关于GTO的观点文章,偶尔在推特上发点牢骚除外。主要原因是,我知道这个主题会引起强烈反弹,在一个英语平台上争论,对我这个英语不是母语的人来说,很吃亏,很耗时间。


另一个原因,我不想不必要地得罪人。这么多人都在GTO这条船上,有些是我本人认识的,现在我跳出来说:伙计,你们一直推广的实际上跟你们说的不是一回事。这种感觉很糟,所以我一直在等别人做这件脏事。我估计有些人跟我有同样想法。这是我能想到的唯一解释,这么久一直没有人质疑这个GTO狂热。


有时候,看到GTO被滥用是一件很有趣的事。比如我看到一个牌手在推特上骄傲地宣称她有一个GTO丈夫。我当时的反应是:这真的是你想要的?想象一下,你在单位受了委屈,哭着进家门,你丈夫仍是习惯性地打开电视看他的海绵宝宝。因为按定义,你丈夫的行为并不受你行为的影响。或者你早上出门时提醒你先生今天是你们结婚十周年纪念日,晚上一起吃一个特别晚餐庆祝一下。晚上回家发现20美元的KFC全家桶外卖已经送到家了。原来,在决定吃什么晚饭的时候,你先生看了一下手表。时针/分针/秒针的组合决定这是一个低频率,换句话说是反常的,选择。我想,这样的GTO丈夫应该不是很多女人理想中的丈夫。这是我们常常看到的现象:学错了,就会用错。我认为90%的GTO爱好者不知道里面那个词Optimal是什么意思。我说90%,已经是很慷慨了。


不是所有的时候我看到GTO弹出来都会觉得轻松。上个月,我看到一个知名牌手撰文谈论他的决策过程。这篇文章得到整个业界的赞赏,被大量转发。尽管我毫不怀疑作者花费了大量时间写作并且是真心帮助玩家,我唯一的反应却是:啊,不。扑克行业目前真的不需要这样的东西。


第二天,我和一位朋友以及他的几位朋友吃饭。其中两个是扑克爱好者,他们已经打了几年的私局,打的也不小,但从来没有认真学过这个游戏。其中一个问我如何提高,他说他的朋友给他一个建议,是关于最新理论的,但他忘记了这个理论的名字。在他看手机查短信的时候,我开玩笑地说:希望不是GTO。他立刻回复:真的是GTO!


我有些不知道该说什么。这样的场合有些不太合适直通通的说:你把时间用在传统的方式学习会更有效一些,而不是掉到GTO陷阱里出不来。然后再长篇大论解释为什么我是这样一个怪人,跟大家都有共识的东西唱反调。我不想毁掉一顿美餐。但如果我应付了事,鼓励他走GTO的路,我会感到内疚。


压倒骆驼的最后一根稻草是本月早些时候在中文微博上爆发的一场关于GTO的论战。双方都指责对方根本不懂GTO,为自身的利益误导新玩家。一方是知名牌手,占有上风,也得到更多的支持。另外一方,一个新起的教学网站,拿出了杀手锏:说明他们不是原作者,是从一个知名的英文教学网站拿来的一位知名教练的文章做的翻译。风向立刻就变了!


中文扑克界一般仰视美国扑克界。这可以理解,毕竟扑克源于美国,美国产生了大量伟大的牌手和优秀的书籍。这没什么可指责的,通常这是很自然合理的做法。


一直有牌手问我在这个争论中站在哪一方,我真的不想说哪一方都不站。我已经因为诚实地回答一些简单问题而让很多人不开心了,我真的不想更多树敌。但是,给信任我的牌手一个模糊的回答并可能产生误导,是违反我的良知的。


于是,我就不得不一次又一次重复那个太过熟悉的流程。牌手们不说什么,但会在心里问:我应该相信你还是应该相信英文培训的主流观点?对他们中的大多数,这根本不是一个问题,这就是现实。


我在这里花了这么多时间就是想说:我不想挑起争斗,但我没法再忍耐下去了。有些人可能觉得我是现代堂吉诃德,在跟一个假想敌作战。也有人会认为我是一个很老的小孩哭出声来:“但是他根本没有穿GTO,我是说根本什么都没穿啊。”(中文注:此处引用并发挥了”皇帝的新衣“结尾不懂事的小孩说出的那句话,英文原文不难理解)我不在乎各位怎么看。事实上,我在乎。但此刻对我来说有一件更重要的事:


我一劳永逸地用英语阐明了我在GTO上的观点。下一次一个中文牌手询问我关于GTO的意见时,我的回答会非常简单和轻松:你可以看我前些年的中文帖子,或者你可以看英文贴和相关的讨论,自己做出判断。


生活真美好!


谢谢阅读到这儿,祝牌桌上好运!


以上是rich zhu在2+2论坛发表的观点,引起了热烈的讨论,在中文的智游城论坛上也有很多不同的声音,有赞同,有反对,大家可以去自己看看。随后,中文领域上,微博引起了热烈的讨论。


 4 

德州扑克发展史

上古时代(1978-2002)-物竞天择

  • 1976-1977年,扑克教父DoyleBrunson连续获得两届WSOP主赛冠军。

  • 1979年,Doyle Brunson的《超级系统》第一册出版。

  • 1980-1981年,天才Stu ungar连续获得两届WSOP主赛冠军。

  • 1987-1988年,东方快车JohnnyChan连续获得两届WSOP主赛冠军。

  • 1989年,扑克顽童Phil Hellmuth获得WSOP主赛冠军。

  • 1997年,Stu ungar获得WSOP主赛冠军,随后一年身故。

  • 1999年,著名作家David Sklansky出版《The Theory Of Poker》,里面提到了博弈论内容。

  • 2002年,Doyle Brunson的《超级系统》再版。

《超级系统》的再版标志着上古时代的结束。这本书是对当年那些伟大牌手成功策略的总结,被奉为最初的扑克圣经。开篇,即表明最成功的策略主要有:1、扑克是关于人的游戏,重要在于对人的解读;2、Aggressive凶是想赢的最重要方法。

凭借着这两条法宝,Brunson、Ungar这些鲨鱼们碾压了遍地松弱的玩家池。事实上,他们的策略和当代的松凶策略相距甚远,只能称之为古典松凶派。

古典松凶派的特点:翻前溜入被视为理所当然的行动,过宽的入池范围并没有进行过精细化设计,巨大比例的超池下注无规律可循,cbet和donk并没有清晰的概念,重中之重在于读牌读人。

那时的扑克策略还被称为艺术,而非科学。

前黄金时代(2003-2011)-百花齐放

  • 2001年、PartyPoker、Pokerstars等online扑克正式上线。

  • 2002年,视频摄像头首次用于WSOP主赛的报道。

  • 2003年,从Pokerstars资格赛赢得门票的Chris Moneymaker获得了WSOP主赛事冠军,当年的亚军是Sam Farha。该事件史称“Moneymaker效应”,标志着扑克全民化全球化的开始。

  • 2004年,Full Tilt Poker上线。

  • 2004年,加拿大人Daniel Negreanu在WPT五钻世界赛获得冠军,同年他被评为WSOP年度最佳牌手。

  • 2006年,Jamie Gold获得WSOP主赛事冠军,获得主赛史上最高的冠军奖金1200万美元。

  • 2006-2007年,著名真人秀HighStakes Poker(2006-2011共7季)和Poker After Dark((2007-2011共7季,2018-2019重启2季)相继开播。电视扑克随着互联网传遍世界各地,造就了Phil IveyTom Dwan、GusHansen、Daniel Negreanu、PatrikAntonius等一大批偶像明星。

  • 2007-2008年,Gus Hansen赢得澳洲百万赛冠军和他的第三次WPT世界冠军,代表着现代松凶打法的巅峰。

  • 2008年,Negreanu的《Small Ball: Poker Holdem Strategy 》、GusHansen的《Every Hand Revealed》出版,分别阐述了两人的独特策略:小球派和现代松凶(LAG)。

  • 2005-2008年,一大批培训书籍雨后春笋般出现,比如2005的《小绿皮书》、2008的《哈林顿在现金桌》、2008的《范围之战》等等。一本2006年11月出版的神书也埋没在这股潮流里,它的名字叫《The Mathematics OfPoker》(扑克中的数学),作者是Bill Chen和JerrodAnkenman。然而,大众还处在耀眼的电视明星和网络的扑克盛宴中,当时并没有多少人注意到这本即将改写扑克策略历史的划时代巨作。

  • 2009年,Online扑克已经风靡全球,高额桌Phil Ivey、Tom “durrrr” Dwan、Gus Hansen、Patrik Antonius、Dan “Jungleman12” Cates、Victor “Isildur1” Blom等大名如雷贯耳。当年,durrrr 与横空出世的瑞典人Isildur1,在Full Tilt Poker进行了后来被称为传奇单挑的HU,Isildur1一周内赢了如日中天的durrrr400万美元。

  • 2011年,黑色星期五事件爆发,FBI和美国司法部关闭了美国的线上博彩网站,Full Tilt Poker卷入了诈骗官司。

Brunson、Ungar留下的古典松凶策略被了前黄金时代牌手进行了继承和发展,Daniel Negreanu改良了Stu Ungar的松凶打法并将其规范化,创建了小球派,主要特点是:翻前范围较宽、多用投机牌入池、采用最小下注和最小加注、翻后多用小额下注进行攻击、注意控制底池。

由于小球派打法符合锦标赛的特点,使其在黄金时代前期达到广泛的认同和应用。然而,天才松凶选手Gus Hansen以疯凶流的打法,压缩了小球派的生存空间,他代表性的现代松凶策略彻底摧毁了小球派控池的梦想。Hansen的技术特点可以称为Brunson的古典松凶进阶版:翻前3bet施压、持续三条街下注、边缘牌跟注、超池下注等。

于此同时,Tom Dwan,可能是电视扑克史上最具偶像气质的明星,也在Cash局中展现了类似Hansen的极具观赏性的松凶打法。这使松凶(Loose Aggressive)策略在众多爱好者的心目中奠定了战无不胜的印象。

然而,在快节奏的网络扑克中,太多的松凶模仿者折戟成沙。以前紧弱策略的玩家也在进化,一部分进化为紧弱的NIT,一部分进化为范围平衡但攻击性弱的ABC,一部分进化为范围紧但防守坚实的ROCK。虽然松凶天生带来的剥削性能很好的克制偏弱的玩家,但是硬币的另一面是松凶的高波动,不够坚实的Bankroll使这些未来的松凶大神倒在半路上。即使是Tom Dwan、Gus Hansen也避免不了线上大额亏损的命运。

现场锦标赛在黄金时代获得了重大发展,无数怀揣“Moneymaker梦想”的爱好者涌入MTT赛场,2006年的WSOP主赛事的参赛人次是创纪录的8773人。在一次次锦标赛的对抗中,玩家们发现逐步涨盲的赛事结构和松凶的波动性无法协调,而凶悍打法的剥削性又无法舍弃,在小球派与松凶的夹缝中,一个新的策略流派TAG(Tight Aggressive)应运而生并占据主流。TAG,紧凶,强调翻前范围,翻后以主动进攻打法控制主动权。

这是一个光辉灿烂的时代,TAG、LAG都拥有数目庞大的拥趸,不甘被淘汰的紧弱选手也纷纷进化为NIT、ABC、ROCK。百花齐放的流派让扑克市场产生了极大的繁荣。

后黄金时代(2012-2014)-打破成规

  • 2012年,Phil Galfond(OMGClayAiken)成立Run It Once在线教学网站。

  • 2012年,Antonio Esfandiari获得WSOP百万一滴水冠军,奖金1800万美元。

  • 2013年,Doug Polk(Ben “Sauce123” Sulsky)在线上单挑比赛赢得84万美元奖金

  • 2013年,Mattew Janda的《Applications of No-Limit Hold’em》出版。

  • 2014年,Dan Colman获得WSOP百万一滴水冠军,奖金1500万美元,亚军是Negreanu。

  • 2014年,Phil Ivey卷入Borgata边缘识牌诉讼案。

为何以黑色星期五为界,把黄金时代划分为前后?这是因为,在New School从策略上打败了Old School以后,那些黄金时代个人标签鲜明的选手已经绝迹了,网络时代再也无法出现TomDwan、Gus Hansen这样单一风格牌手,即使知名牌手自身也在进化,比如Negreanu。对TAG(紧凶)、LAG(松凶)风格的深入研究后,所有成功牌手的风格都在靠拢。HUD软件的应用让线上玩家归并了对手策略的类型,但是Good REG的数据趋于统一。

新的类型LAGTAG出现了,对高阶玩家类型的识别已经失去了作用。你无法判断坐在你对面的ID到底是TAG还是LAG,他们已经回到了老Brunson最初给人的教导,扑克打的是人。你会看到高手们时松、时紧、时凶、时弱,现在紧凶、松凶已经不是高手的标签或风格,而是他们针对相应玩家的单独策略方式。对NIT策略采用LAG,对ROCK策略采用TAG等等。采用这种控制自如的LAGTAG策略,可以称为是“Expoitative Play”的粗粒雏形。

这也是扑克策略进化的必然途径,标签化脸谱化的玩家类型识别只能应对于新手,对付几十万上百万手牌的强悍对手,给他分类只能说是刻舟求剑。

那么,扑克策略该向哪个方向继续进化呢?让我们回忆起2006年11月那本圣经般的的著作,《The Mathematics Of Poker》。

智能时代(2015-今)-纳什均衡

  • 2015年,GTO Solver软件Piosolver1.0上市。

  • 2015年,Doug Polk成立Upswingpoker在线教学网站,以GTO策略教学为主。

  • 2016年,PS锦标赛大神BenCB789成立Raise Your Edge在线教学网站,教学GTO、剥削策略

  • 2016-2017年,Fedor Holz获得WSOP$111,111一滴水冠军,奖金498万美元;Rainer Kempe获得16年超级碗豪客赛2冠军,奖金500万美元;ChristophVogelsang获得17年超级碗豪客赛3冠军,奖金600万美元。以小组学习为主的德国帮崛起。

  • 2017年1月,CMU的应用CFR+的人工智能程序Libratus在12万手HU中以14.7bb/HH的巨大优势战胜四名高水平人类选手。

  • 2017年4月,人工智能程序Libratus冷扑大师在3.6万手HU中以22bb/HH的巨大优势战胜六名中国选手。

  • 2017年,Libratus作者Noam Brown以不完全信息博弈论的解决方案获得NIPS2017最佳论文奖。

  • 2018年,Justin Bonomo获得超级碗豪客赛中国赛、超级碗豪客赛4、WSOP百万一滴水冠军,奖金分别为480万美元、500美元、1000万美元。FedorHolz获得百万一滴水亚军。专家分析Bonomo使用的多为GTO策略。

  • 2018年,瑞士人Linus “LLinusLLove” Loeliger和Timofey “Trueteller” Kuznetsov、Jonas“OtB_RedBaron” Mols一起,被Upswingpoker知名教练Andres“ Educa-p0ker” Artinano评为全球三大6MAX NLH玩家。因善用软件,LLinusLLove被网上称为“人肉Solver”。

  • 2018-2019年,连续两年排名GPI第一的Alex Foxen在美国公开赛采访中宣称自己玩的是GTO策略。

  • 2019年7月,CMU的人工智能程序Pluribus经过AIVAT方法计算后,宣布战胜与真人对弈的6MAX NLH。

《The Mathematics Of Poker》中的扑克策略,终于在2015年开始得到了软件的应用。同时,大量高质量的教学网站成立,以GTO策略、Solver使用为主。线下及线上顶级牌手纷纷利用solver软件进行策略研究,黄金时代的New School们逐渐被时代抛离。以往单纯的TAG、LAG风格迅速被遗弃。而基于LAGTAG的策略,也根据GTO发展精细化的“Expoitative Play”,即MES(Max Exploititive Strategy)策略。

GTO策略在MOP中被命名,Optimal的含义经常被语境所误解。事实上,GTO策略是一种NE(Nash Equilibrium)策略。如果当时Bill Chen把它写位GTNE,或许会少一点争议。但不可否认,GTO朗朗上口的缩写,也是这种均衡策略推广的助力之一。

至此,一种完全均衡的策略已经被开发出来,而那些松凶、紧凶、LAGTAG、NIT、ABC等以博弈论的眼光看都存在各种漏洞,在你无法确定对手是某种固定风格的玩家之前,或者对手是易变的、不稳定的风格的专家,采用GTO就是最好的策略。



 5 

德州扑克GTO问答

对于这个问题,知乎的网友@Demitasse针对性的写了回答。我们来学习下。同时在微博也做了自我介绍,我之前也转载过他知乎关于AI poker的文章,相信是一个对扑克非常热爱的爱好者。


Rich Zhu与GTO理论(下):https://www.moshike.com/a/1790.html 


德州扑克
德州扑克