AI与Solver(上)

  • 404
  • A+

AI与Solver(上)


AI和solver是当前扑克无法回避的话题。这篇文章我们将带大家梳理当前扑克技术发展的前沿,解答同学们关于各类黑科技的疑惑。

   近年来扑克社区绕不过去的一个话题就是solver,大家solver长,solver短。而solver作为一个外来词,其实对中文社区很多朋友造成很大的困扰。

   那么什么是solver呢?他是一个统称——指的是一个特定问题的解决器。你可以把计算器称作是一个处理四则运算的的solver。而在我们扑克领域,我们指的是他可以解决德州扑克问题。

   当我们再看的仔细一些的时候,德州扑克的solver事实上是一个多输入多输出的函数。


20211231133444


   我们以翻后计算为例,来看德州扑克需要输入哪些参数:

▸ 双方的范围

下注尺度

▸ 底池大小,有效筹码——也就是spr

▸ 牌面

   当我们填好这些参数之后,就可以建立策略树——换言之建立好一个特定的德州扑克问题,solver就可以开始求解了。


   Solver求解一个具体的策略树仍然需要大量的算力,在我们等待后,就会得到solver的输出,这包含了:

▸ 双方在这个情形下的最优策略

▸ 以及一些附加的计算项目,比如权益和期望等


20211231133905

介绍完solver,我们来看什么是AI。

   人工智能(Artificial Intelligence)英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

   重点:要像人一样完成复杂工作!


   而在扑克领域的AI就是指,一个能够像人一样处理所有情形的程序。(而处理的好不好另说)

   我们对比solver和AI就会发现,solver处理一个情形是需要大量时间的,而AI如果要像人一样做出决策,则需要短时间给出回应,这期间的问题是怎么解决的呢?

当前AI的实现类型

 第一种是presolved式样的AI。开发者预先计算大量的结论。存储在策略库中。当情形出现的时候进行匹配调用。

20211231134105

首先匹配底池类型,底池类型一致的话,进行下一步。如果匹配不到,就真的歇菜了。什么样的情况下会匹配不到对应的底池类型呢?

   德州扑克的GTO解是完备的,但实际情况中总会有玩家打出一些奇奇怪怪不被考虑的行动路线(也就是line)这时候就无法匹配对应的底池类型了。

   多人桌的问题也就在这里,奇奇怪怪的line会导致底池类型过多,即使匹配了底池类型,但底池类型和翻前范围也不匹配,所以这里存在巨大的坑需要填。

   这使得市面上所有宣称自己解决多人底池的扑克AI,都是坑。包括大厂出品的那一款。

   类型匹配一致了,接下来就要匹配筹码量,换句话说就是spr。如果匹配一致,就ok,不一致的话,也是歇菜的。不同spr的策略会产生细微但不可忽略的差别。

   当筹码量匹配一致之后,就需要开始处理牌面的问题,认真处理的工程师会用比较大的翻牌面子集(也就是flop subset)没良心的就会用的很少。当牌面匹配一致,就可以直接调用,但绝大多数的情形是类似而不是一致的(除非计算翻牌面子集的时候用了全牌面)。

   当工程师用了比较大的翻牌面子集,这里期望损失就会比较小,如果没有良心,这里策略的期望损失就会比较大。

   那你猜,卖你的人,是有良心还是没有良心呢?

   以上是presolver式的AI的实现路径。

   接下来,我们来看其他的AI实现方式。

   这包含神经网络式的AI,通过深度学习或者机器学习的方式来获取一个能够快速做出响应的神经网络。这种AI将策略分为训练集和测试集来训练自己的产品。

   但这种方式仍然需要处理底池类型匹配问题和筹码量匹配的问题,典型的代表就是pokersnowie

   讲到这里,我们来总结一下当前AI会存在哪些问题?

   底池类型匹配

▸ 人工干预类型,对稀有和奇怪的类型人工分类并预设范围

▸ 但是,如何将范围预设准确?训练方没有足够的手牌历史!事实上,再多的手牌历史在这里都会面临样本不足的问题。


   筹码量匹配

▸ Presolved式,对筹码量进行步长细分。但这也会衍生新的问题——策略库剧烈膨胀,存储和搜索变得艰难。

▸ 神经网络式,用多筹码量进行训练。不同筹码的结果会互相影响。

e228d71d44bd004d79cd831dc5e795d8.

////

   最后我们换一个角度来分辨AI的类型,分别是半自动和全自动的。

  半自动式样的,被称为RTA_realtime assistant 即时辅助工具。他的半自动是指,在每个行动的时候给你做提示,而不是代替你进行行动。

   而全自动式样的被称作 realtime bot,类似于挂机软件,完全不需要人,就可以做行动。人就可以不参与啦。

   全自动的机器人看上去很美好,但是策略质量嘛……你懂的。


接下文:AI与Solver(下):https://www.moshike.com/a/3810.html 


德州扑克







德州扑克