人机德扑大赛 - 德州扑克

A+

人机德扑大赛

“——

AI人机大战已经开战，来自中国的6位顶尖德扑高手对阵“冷扑大师”Libratus, 卡内基梅隆大学研发的无限扑克人工智能系统。

相信不少读者都想在周末观战一下这场人机大赛，尽管这场大赛的结局已颇明朗，在围观的时候还是有不少门道可以学(zhuang)习(bi)，如果你跟我一样，同时对AI和德扑都非常感兴趣，来，以下10条观战指南拿好不谢！

——”

关于德扑AI有两个核心问题: "它是如何工作的？" 和" 为什么这么玩能赢？" 对于第一个问题的答案是一些算法的名字(i.e. Counterfactual Regret Minimization）。对于第二个问题的答案是博弈论中的一些概念(i.e. Nash Equilibrium)。网上已经有很多好的文章，有兴趣的同学可以看看。

但如果你跟我一样，同时对AI和德扑都非常感兴趣，除此之外肯定还有一大堆跟进问题。出于好奇，我最近看了不少相关资料。以下是我认为一些比较有趣的问题:

1. 网上都说AI太厉害了，人基本上没有希望赢

这个比赛还有什么看点吗?

我认为还有好几个有趣的观察点。其中我最感兴趣的一个问题是: “中国队的最终结果是否能够接近于美国队的结果?”

美国的4个选手最终的结果是-14BB/100。也就是说，平均每跟AI打100手牌，就会输掉14个大盲注。中国战队是否可以超越这个成绩，还是很有悬念的。

2. BB/100是什么? 我只听说AI上次赢了好几百万

钱数是个虚荣数据，完全没有意义的。其实第一次比赛并没有用真钱，所以"几百万"只是一个为了传媒效应而随机选出来的倍数。如果当时他们玩的是1分/2分，结果也是一模一样的。只不过标题如果是“AI赢了人类73.2块钱”，听上去就没有那么厉害了。

真正评价一个选手的实力，也就是几个基本指标。比赛玩家最终看ROI(投资回报率)，现金玩家最终看BB/100。

BB/100就是每打100手牌，你平均会赢或会输多少个大盲注。例如，如果你平常跟朋友打5块/10块的局，每次buyin1000，每周打200手牌，打一年（~50周），然后最后水上5000块钱，那么你的胜率就是 5BB/100。

AI德扑让我最兴奋的一点，是我们终于可以去客观衡量一个牌手的实力。

国际象棋有ELO，围棋有段级，但德州扑克一直以来都没有级别标准。我们今天讨论某某德州高手，都还用一些大型比赛成绩来代表实力。这是非常不科学的。如果我们愿意承认AI已经接完美战略，那么每个人的对战结果其实就是一个可对比的实力分数。

3. 中国队和美国队的实力比起来如何?

首先这里有一个需要解释的关键点: 不同类型的德州扑克玩法是很不一样的。锦标赛和现金局不一样；1v1，6人桌，9人桌不一样；线上和线下比赛也很不一样。当然这些游戏之间有很多基础理论是相同的。十几年前，因为整体水平低，一个懂的基本理论的玩家无论玩什么游戏类别都有很大优势的。但如今因为竞争压力，很多职业选手都选择专研一两个垂直领域。

拿游泳做比喻: 一个优秀的游泳运动员在所有项目中都会比普通人快很多。但在奥林匹克级别竞争中，400m的自由泳世界冠军也很难在50m蛙泳中拿到好成绩。

国外的德州扑克生态环境近年来并不好，能赚钱的地方越来越少，竞争也越来越激烈。美国比赛的4位选手都是线上1v1专家。

中国土豪多，可以支持良好的线下现金局和线下多桌锦标赛。在这两种形式中，中国也有世界级高手。但跟AI玩的是1v1。

我跟这次战队中一半的选手认识，并一起打过牌。毫无疑问的是他们都有超强的学习能力。不管是打德扑，做企业，做投资，他们都可以在很短时间内成为行业专家。听说杜悦老师在带队急训1v1打法，希望他们可以创造奇迹!

4. 这次比赛有多少运气成分？

美国比赛打了12万手牌，这次中国比赛“只”打3万手牌，虽然如此，运气成分还是是非常少的。

3万手的概念大概是这样的：假设你每天晚上都跟一帮朋友打4个小时牌，一周5次，一年也打不了3万手。

另外Libratus的比赛环境还有一些降低随机性的功能。

5.AI的打法跟人有很大差别吗?

我们大概可以把德州扑克玩家分为三类：

Group 1: 初学者 - 懂得基本游戏规则，赔率。

Group 2: 业余玩家 - 懂得EV，和一些其它的基本游戏元素（比如筹码量，位置，和牌力等因素的运用）。

Group 3: 高手/专业玩家

Group 2 与 Group 1的最大差别是学会怎样用期望价值（EV）来做决策。Group 3与 Group 2的最大区别是意识到不能只考虑当下手牌，而要考虑整个范围（range），并达到战略上的平衡。

有趣的是，AI的思维方式跟顶级高手是相似的。区别是AI可以做到更精准的范围推测与计算。

6. AI会诈唬 (bluff) 吗？

当然。这个问题背后有个错误假设，就是诈唬的关键在于心理与勇气。其实诈唬更多是一道数学题: “对于我的范围与对手的范围，如果这手牌重现10次，我诈唬 0次，3次，或10次，哪个期望价值最高?”

7. AI可以读牌吗？

同样与上，这个问题的假设是读牌主要靠观察肢体语言或眼神。但其实读牌本质上就是在做范围预估。

如果你能搞懂AI的算法为什么work，你已经是个德州高手了。

8. 用一些“奇诡”的战略有没有可能把AI搞糊涂?

不可能。这个AI的原理就是试图去玩一种防守型完美战略，等着你来犯错误。从博弈论角度上，胡乱打法只是做到了“失去平衡”。

比如起手raise的数量很多都是在2-3个大盲之间。这个数字不是个惯例，是可以用数学原理证明的。如果你20个bb起raise，那么你就失去平衡了。"20bb 起raise"仅是一个很容易被AI利用的漏洞。

诈唬太多，下注太大，随机推all in，这些都是典型的“不平衡”战略。如果有选手试图用这些套路来扰乱AI，会输的很惨。

9. 这个AI机器人放到网上打牌岂不是赚爆了?

抛开技术问题(硬件成本，软件对接)不说，真的想靠一个1v1机器人赚大钱还是有难度的。线上高额1v1是个非常小的盘子，大部分玩家也会避开明显比自己厉害的对手。

前几年两个顶级高手Doug Polk 和 Ben Sulsky 对决了一次。最后Doug大胜(+25BB/100)。结果是什么呢？之后再也没有人愿意跟Doug打1v1比赛了，所以他就只能退休了。

另外，5-6年前网上就有很多可以打败90%的选手，并可以持续赚钱的机器人了。想靠德州扑克赚钱，最重要的其实不是打遍天下无敌手，而是选桌。

10. AI具体用什么手段打败人类

GTO打法虽然是“防守型”打法。但并不是说不进攻，而是找到平衡点。很多场景下，人类的打法才是过于保守的，所以为了达到真正平衡，AI会比人选择更狠，更大胆的套路。

美国参赛选手赛后的采访中，提到了一些AI战术上的特点，包括经常超池下注（overbet），给对手造成极大的压力，并能做出人类（因为心里素质缺陷）做不到的（但是正确的）bluff。

我之前看过一个美国队牌手的采访，他们说AI跟Tom Duan, Doug Polk这类牌手有很多相似之处。但AI比他们更冷血，更可怕。

如果你不熟悉以上牌手的风格，可以看一个例子：

(Sammy: 我手持两对，在1v1中是非常强的一手牌。对手的范围有很多bluff，我bet也没有价值，不如check做一个陷阱，准备check call)

(Tom: 这里bluff1/2pot-2/3pot是赔钱的。相对来说fold可能是个更好的选择...

...但是还有一个选择是平常牌手不会考虑的。对手的范围里面有很多A，因此有同花或更强牌的可能性不大。这是一个capped range的情况。如果我这里打一个超pot的bluff，也许可以达到80%以上的弃牌率，EV更高...

All In！)

（Sammy: 呃... ... 虽然我有2对，其实我只能赢一个bluff。真的有人敢在这么危险的牌面上推出来一个超pot all in吗? 看来我只能good fold了)

(Tom: