冷扑大师

  • A+

 冷扑大师玩的到底是不是德州扑克?

  关于冷扑大师的视频介绍


冷扑大师

    前两天,我写了一篇文章《智力运动与人工智能》,其中将国际象棋、围棋与德州扑克进行了比较。我认为,德州扑克作为不完美信息博弈的代表对人工智能的挑战会更加大些,事实也证明了这一点。冷扑大师虽然击败了人类玩家,但是仍然是在一对一且重制筹码的模式下取得的胜利。一些玩家表示,这种有限制规则下的德州扑克并不能代表德州扑克的全部,冷扑大师的胜利不足以说明什么;还有另一些观察者认为,冷扑大师从原理上和其他的人工智能都不相同,和谷歌的阿法狗比尚不在一个量级。那么,冷扑大师的胜利到底做不做数,冷扑大师和阿法狗到底能否同日而语?

冷扑大师


    首先说,冷扑大师玩的的确是德州扑克,胜利也已经很能说明问题了。把冷扑大师引进国内的李开复说“冷扑大师对阵人类玩家胜率90%,而柯洁对阵阿法狗胜率为0”为什么两者会存在10%的差异?因为围棋和德州扑克完全不是一个体系内的运动,原因我已经在上一篇文章中阐释过了。应该说,能够在人类原本处于优势的领域(德州扑克)战胜人类,难度要比在机器有优势的领域(完全信息博弈体系)大得多。所以这10%的差距并不能证明阿法狗强于冷扑大师。

冷扑大师

    饱受争议的是为什么冷扑大师和人类的竞赛要采用限制规则(每局重制筹码,一对一)。一来是因为德州扑克的特殊性,导致现在机器在技术上还不具备一对多处理信息的能力,但这不代表以后不具备。二来是组织者希望通过重制筹码降低运气因素,也就是减少波动对玩家的影响。

冷扑大师

   因为有这两条规则的限制,有人说因此抑制了人类的发挥。先举重置筹码这件事为例,我认为它确实对正常的德州扑克比赛产生了影响,但却更客观的反映了两者的实力。要知道运气这件事对双方总体来讲都是公平的,双方在长期博弈上也一定会遵循“期望价值”的打法。但是这样的措施的确也将德州扑克的很多技巧和乐趣阉割了。

 冷扑大师

   从趣味性上讲,玩过德州扑克的人都知道,打牌最开心也最伤心的就是遭遇“河牌超越”,也就是所谓的bad beat。有可能我一路领先,一路都在打+EV(expected value),对手却步步犯错,在每一次落后时都选择了支付价值,但却在最后河牌反超。毕竟偶然性,是体育运动最大的魅力。因为偶然性,玩家的策略和心态也会发生变化。除了因为运气产生的影响,筹码的长短本身对应的打牌策略也完全不同。打过锦标赛或者现金局的玩家都知道,短码往往被长码“欺负”,被迫成为推推乐。在下注阶段,操作空间也会被挤压,因为很容易就打成套池的局面。但是短码也并非一无是处,短码方也可以利用自己的筹码劣势在桌子上打出多种风格迷惑对手。冷扑大师的重制筹码策略,一下子把双方在心理博弈和运气上的因素减少了一大半。这个问题就好比说,让足球比赛的双方将比赛地调整到第三方,使得任何一方都无法拥有主场优势,裁判则由机器人执法,准确无误,却没有尺度可以探寻。你说这样的比赛偶然性很低,趣味性不强,甚至无限接近于双方真实实力的体现,我很认可。但是如果你说这样的比赛就不是足球比赛的话,就有些夸张了。以中国男足为例,谁都知道按照实力模拟我们不可能战胜韩国队,但是我们还是请来了里皮,在个别场次我们确实也因此战胜了韩国队。里皮就相当于德州扑克里的筹码数量,他对比赛确实会产生影响,但是不是因为有里皮所以就一定能够每次都战胜韩国队,他的到来只是增大了偶然性罢了。反过来说,人机大战的意义并不在于通过人机大战展现德州扑克的魅力,而在于在尽可能公平的情况下去检验人工智能的实力。在这个角度上讲,我不认为重制筹码这件事会对结果产生决定性的影响,只可能在过程中会产生或大或小的改变。

冷扑大师

    再说说现在机器力所不及的一对多的问题。我个人认为一对一只是一个起点,一对多马上就会出现,而且那时候人类就再也没有借口了。类似的情况可以参见去年阿尔法狗和李世石的人机大战,当时阿尔法狗的很多下法都为人类高手所不能理解,甚至在第一盘结束之后,罗洗河还曾说“可以让阿尔法狗两个。”但是随着比赛的进行,人类大师就已经开始认可它的棋力了。不到一年之后,阿尔法狗升级版大师更是在网络上所向披靡,把当时对它还很不屑的诸多名手都斩落马下,这个时间仅仅用了一年。冷扑大师的升级,也绝对不会慢于阿尔法狗当年的速度。但是不可否认的是,一对多和一对一确实不是一个级别的难度。了解德州扑克的人都知道,不要说牌桌的人数多少,光说入池人数不唯一这件事需要考量的技术就完全不同了。位置的优势和劣势也会进一步的放大,打牌风格的影响也会更大。观察现在冷扑大师的打法,其实就很像当年阿尔法狗一代下棋的路子。它的很多玩牌技巧都和人类高水平玩家不在一个点子上。比如冷扑大师会经常下四分之一个pot,这个下注量在人类玩家之中就很罕见。由此可见,它还在不断摸索自己的博弈策略,未来驾驭更难、更复杂的场景应该只是时间问题。尽管如今的冷扑大师尚不能进行多人德州扑克游戏,但是不代表它打的不是德州扑克。一对一单挑和筹码重置依然可以使用到绝大多数的德州扑克策略,更加完整的德州扑克只是迭代的问题。

冷扑大师

     关于冷扑大师和其他人工智能的比较,我个人觉得没有什么比较前提。就以冷扑大师和阿法尔狗为例。他们所采用的运算机理和未来设想的应用场景都不相同。颇有些关公战秦琼的味道。众所周知,阿法狗采用的是神经网络加深度学习的技术,它所面向的是确定计算量更大的完全信息博弈场景。比如围棋,虽然棋盘的点是确定的,但是每一步棋所产生的变化确实惊人的,因此它需要更广的搜索,更深入的计算。而冷扑大师完全不用,它需要的是在众多选择中找到一个最优解。这个最优解既体现在每一次下注,又体现在长期的博弈策略,还体现在判断对手的博弈策略上。虽然冷扑大师也在自我学习,但是它沿用的是更经典的线性规划的方法。它将来要应用的领域是谈判、拍卖、中介交易等信息不完全公开的博弈环境。

冷扑大师

    综上所述,尽管冷扑大师今天的胜利尚有争议,但是人工智能在智力运动领域对人类的超车已经是不可避免的了。其实这并不可怕,就像当年汽车替代马车一样,不论汽车、马车作为主要运力谁主沉浮,仍然牢牢把握驾驶岗位的还是人类。哦不,明天也许就是无人驾驶的世界了。

德州扑克
德州扑克