德州AI和贝叶斯法则的利用

1671

A+

之前的德州游戏AI会利用贝叶斯法则（一种概率反演算的定律）来推断对手的手牌范围，这种办法会导致AI产生极大的漏洞。冷扑用的办法是不预先假定对手的手牌范围，而是考虑对手如果拿着某手牌做出这样的行动合理不合理，按照他自己的纳什均衡，这样的动作会让他损失多少EV，从而调整自己的行动最大化对手的损失。

举个例子，这也是一般人类和AI很棘手的问题。一个人上桌第一手牌就翻牌前推了你200个盲注，你拿A9同花应该跟注还是弃牌。一般人类和之前的德扑AI往往会推测对手手牌范围，然后考虑平均来说跟注值不值得。推测对手手牌范围的行为会让自己打法产生漏洞，容易被高手钻空子。冷扑利用了2014年发明的一种新算法，他不推测对手平均手上拿什么牌，而是针对每种手牌考虑德扑规则：假如对手拿27它应不应该全压，如果按照他自己的纳什均衡策略，他全压27损失巨大。那如果他拿AA应不应该全压，按照他的纳什均衡策略，AA全压太浪费了，损失也是巨大。一个一个的考察他每种手牌这样打会损失多少EV。然后我们选择一种打法让他长期来说损失EV最大的打法。也就是说，你可以每把拿烂牌推我，但是万一我拿到好牌call你，你损失巨大。所以我不怕你这样打。（注意冷扑不会考虑之前玩家游戏历史，所以连续翻牌前推10次和翻牌前推1次对冷扑是一样的）

第四，之前德扑AI会把对手的下注大小简单的四舍五入，这是一个大漏洞，一来会导致纳什均衡计算出错，二来会导致人类利用AI这点来剥削AI。冷扑的做法是如果人类做出了不寻常的奇怪下注，冷扑不会简单的四舍五入，而是会针对这种下注方法独立的展开纳什均衡计算。他们的实验发现，使用这种算法，可以让德扑玩法冷扑被人类高手剥削的可能性降低为原来的1/12. 但是这个方法只用在转牌和河牌圈（后两轮）前两轮还是简单四舍五入。

最后，也是让冷扑变得强大的一个重要系统，就是冷扑能总结一整天下来的游戏，修补自己的漏洞。它会优先考察自己最常见的错误，每个晚上冷扑大概能修补自己3个漏洞（其实还有更多漏洞，不过电脑的计算量限制下冷扑只能修补两三个漏洞）。

冷扑的弱点

开发者承认冷扑最大的弱点是不会考虑对手打法。就算你从来不咋呼，或者每手牌都咋呼，冷扑以及现在主流的德扑AI都不会利用你的漏洞。德扑AI只会坚持纳什均衡打法，利用人类偏离纳什均衡的错误来盈利。这点和人类玩家很不一样。

冷扑即使在晚上的自我进化阶段也不会去寻找人类的漏洞。

不过开发者说，这个弱点也恰好同时是冷扑的优点。因为假如你要去剥削对手的弱点，那么你自己就会卖出破绽，这样人类高手反而会利用你的破绽来剥削你。比如你看对手把把咋呼，下一把你想着要去抓对手咋呼，那你必然会拿弱牌跟注对手。这时你自己就卖了个漏洞出来，对手有可能利用这个漏洞来反打你。而抓漏洞的游戏上，AI肯定玩不过人类高手。真正好的打法是不管对手有没有漏洞，AI寻找纳什最优打法的能力肯定比人类强，只要AI按照最优打法来打，人类一犯错，AI就能盈利。

事实上人类顶尖高手的明显漏洞非常小，AI尝试去抓人类漏洞是危险的行为。AI和普通人类玩家交手也能取得很大的优势。但是剥削弱玩家的德扑教学能力上，AI是比不过人类高手的。（不过反正坚持按照GTO（最优打法）玩都能赢，为什么一定要想着去剥削对手呢）

此外很多人类以为AI会侦查他们的漏洞，所以故意卖漏洞给AI，这也造成了他们进一步偏离纳什均衡，反而承受更大的损失。