冷扑大师 - 德州扑克

1331

A+

冷扑大师玩的到底是不是德州扑克？

关于冷扑大师的视频介绍

冷扑大师

前两天，我写了一篇文章《智力运动与人工智能》，其中将国际象棋、围棋与德州扑克进行了比较。我认为，德州扑克作为不完美信息博弈的代表对人工智能的挑战会更加大些，事实也证明了这一点。冷扑大师虽然击败了人类玩家，但是仍然是在一对一且重制筹码的模式下取得的胜利。一些玩家表示，这种有限制规则下的德州扑克并不能代表德州扑克的全部，冷扑大师的胜利不足以说明什么；还有另一些观察者认为，冷扑大师从原理上和其他的人工智能都不相同，和谷歌的阿法狗比尚不在一个量级。那么，冷扑大师的胜利到底做不做数，冷扑大师和阿法狗到底能否同日而语？

冷扑大师

首先说，冷扑大师玩的的确是德州扑克，胜利也已经很能说明问题了。把冷扑大师引进国内的李开复说“冷扑大师对阵人类玩家胜率90%，而柯洁对阵阿法狗胜率为0”为什么两者会存在10%的差异？因为围棋和德州扑克完全不是一个体系内的运动，原因我已经在上一篇文章中阐释过了。应该说，能够在人类原本处于优势的领域（德州扑克）战胜人类，难度要比在机器有优势的领域（完全信息博弈体系）大得多。所以这10%的差距并不能证明阿法狗强于冷扑大师。

冷扑大师

饱受争议的是为什么冷扑大师和人类的竞赛要采用限制规则（每局重制筹码，一对一）。一来是因为德州扑克的特殊性，导致现在机器在技术上还不具备一对多处理信息的能力，但这不代表以后不具备。二来是组织者希望通过重制筹码降低运气因素，也就是减少波动对玩家的影响。

冷扑大师

因为有这两条规则的限制，有人说因此抑制了人类的发挥。先举重置筹码这件事为例，我认为它确实对正常的德州扑克比赛产生了影响，但却更客观的反映了两者的实力。要知道运气这件事对双方总体来讲都是公平的，双方在长期博弈上也一定会遵循“期望价值”的打法。但是这样的措施的确也将德州扑克的很多技巧和乐趣阉割了。

冷扑大师

从趣味性上讲，玩过德州扑克的人都知道，打牌最开心也最伤心的就是遭遇“河牌超越”，也就是所谓的bad beat。有可能我一路领先，一路都在打+EV(expected value),对手却步步犯错，在每一次落后时都选择了支付价值，但却在最后河牌反超。毕竟偶然性，是体育运动最大的魅力。因为偶然性，玩家的策略和心态也会发生变化。除了因为运气产生的影响，筹码的长短本身对应的打牌策略也完全不同。打过锦标赛或者现金局的玩家都知道，短码往往被长码“欺负”，被迫成为推推乐。在下注阶段，操作空间也会被挤压，因为很容易就打成套池的局面。但是短码也并非一无是处，短码方也可以利用自己的筹码劣势在桌子上打出多种风格迷惑对手。冷扑大师的重制筹码策略，一下子把双方在心理博弈和运气上的因素减少了一大半。这个问题就好比说，让足球比赛的双方将比赛地调整到第三方，使得任何一方都无法拥有主场优势，裁判则由机器人执法，准确无误，却没有尺度可以探寻。你说这样的比赛偶然性很低，趣味性不强，甚至无限接近于双方真实实力的体现，我很认可。但是如果你说这样的比赛就不是足球比赛的话，就有些夸张了。以中国男足为例，谁都知道按照实力模拟我们不可能战胜韩国队，但是我们还是请来了里皮，在个别场次我们确实也因此战胜了韩国队。里皮就相当于德州扑克里的筹码数量，他对比赛确实会产生影响，但是不是因为有里皮所以就一定能够每次都战胜韩国队，他的到来只是增大了偶然性罢了。反过来说，人机大战的意义并不在于通过人机大战展现德州扑克的魅力，而在于在尽可能公平的情况下去检验人工智能的实力。在这个角度上讲，我不认为重制筹码这件事会对结果产生决定性的影响，只可能在过程中会产生或大或小的改变。

冷扑大师

再说说现在机器力所不及的一对多的问题。我个人认为一对一只是一个起点，一对多马上就会出现，而且那时候人类就再也没有借口了。类似的情况可以参见去年阿尔法狗和李世石的人机大战，当时阿尔法狗的很多下法都为人类高手所不能理解，甚至在第一盘结束之后，罗洗河还曾说“可以让阿尔法狗两个。”但是随着比赛的进行，人类大师就已经开始认可它的棋力了。不到一年之后，阿尔法狗升级版大师更是在网络上所向披靡，把当时对它还很不屑的诸多名手都斩落马下，这个时间仅仅用了一年。冷扑大师的升级，也绝对不会慢于阿尔法狗当年的速度。但是不可否认的是，一对多和一对一确实不是一个级别的难度。了解德州扑克的人都知道，不要说牌桌的人数多少，光说入池人数不唯一这件事需要考量的技术就完全不同了。位置的优势和劣势也会进一步的放大，打牌风格的影响也会更大。观察现在冷扑大师的打法，其实就很像当年阿尔法狗一代下棋的路子。它的很多玩牌技巧都和人类高水平玩家不在一个点子上。比如冷扑大师会经常下四分之一个pot，这个下注量在人类玩家之中就很罕见。由此可见，它还在不断摸索自己的博弈策略，未来驾驭更难、更复杂的场景应该只是时间问题。尽管如今的冷扑大师尚不能进行多人德州扑克游戏，但是不代表它打的不是德州扑克。一对一单挑和筹码重置依然可以使用到绝大多数的德州扑克策略，更加完整的德州扑克只是迭代的问题。

冷扑大师

关于冷扑大师和其他人工智能的比较，我个人觉得没有什么比较前提。就以冷扑大师和阿法尔狗为例。他们所采用的运算机理和未来设想的应用场景都不相同。颇有些关公战秦琼的味道。众所周知，阿法狗采用的是神经网络加深度学习的技术，它所面向的是确定计算量更大的完全信息博弈场景。比如围棋，虽然棋盘的点是确定的，但是每一步棋所产生的变化确实惊人的，因此它需要更广的搜索，更深入的计算。而冷扑大师完全不用，它需要的是在众多选择中找到一个最优解。这个最优解既体现在每一次下注，又体现在长期的博弈策略，还体现在判断对手的博弈策略上。虽然冷扑大师也在自我学习，但是它沿用的是更经典的线性规划的方法。它将来要应用的领域是谈判、拍卖、中介交易等信息不完全公开的博弈环境。

冷扑大师

综上所述，尽管冷扑大师今天的胜利尚有争议，但是人工智能在智力运动领域对人类的超车已经是不可避免的了。其实这并不可怕，就像当年汽车替代马车一样，不论汽车、马车作为主要运力谁主沉浮，仍然牢牢把握驾驶岗位的还是人类。哦不，明天也许就是无人驾驶的世界了。