AI软件Libratus - 德州扑克

1063

A+

AI软件Libratus为什么能打败专业玩家？

科技世界正在以我们无法想象的速度千变万化。

当激励机制还为人类所掌控，而我们作为人类-技术关系中唯一开拓者的日子已经一去不复返了。

如今，情况已转变，我们的造物开始声明什么是他们应得的。

不，我不是在谈论机器人霸主的世界末日反乌托邦场景；而是要说明机器在创建过程中日益提升的参与度。

人工智能时代来了…

你可能猜到了我要提的技术：人工智能。

在数字革命中，人工智能也许已成为最宏大和最活跃的领域，其永无止境的创新轰动了整个行业。仅举个例子，一个叫做Libratus的基于人工智能的软件，在20天的比赛中，主动出击，全力以赴，击败了四名无限制德州扑克的职业玩家。

像Libratus这样的人工智能软件是我们努力实现世界自动化进程的重大里程碑。通过这样的创新，人类-技术相互关联概念的现实性和可行性得到巩固。无论是华尔街的金融投机还是专业的电子游戏领域，人工智能都在不断证明自身价值。

为什么打扑克是人工智能面临的重大难题

在扑克高手和人工智能之间这场极其艰难的比赛之前，许多人工智能爱好者甚至不敢幻想他们的软件能打败扑克大师，更不用说在最复杂的游戏版本中对抗了。

通常，由于游戏的布局，即使是基本的电子扑克游戏也很难被击败：玩家总是隐藏自己的牌，更不用说虚张声势并欺骗对手了。而当谈到无限制德州扑克游戏时，风险就更大了。

根据谷歌AI实验室创始人Andrew Ng的说法，人工智能很难在扑克游戏中获胜，因为游戏玩家只能掌握一小部分信息，而非游戏的全部。这对人工智能来说是一个巨大的挑战，它需要研究对手的所有动作和可能性，而这反过来又使得预测最佳动作变得不可能。

因此，为了利用其非凡的计算能力，人工智能会随机化每项动作，使得对手很难理解它什么时候虚张声势，什么时候没有。

Libratus VS 四个职业扑克玩家

所以，我们来看看这个著名的案例，2017年Libratus软件成功击败了四名扑克玩家，非1名、2名或3名。无论从哪方面来看，这件事都不是想象中那般简单——不管是德扑玩家，还是游戏，甚至是人工智能软件本身。

在匹兹堡一家娱乐场里，与Libratus对决的是世界上最著名的扑克手，Dong Kim和其他三位。无限德州扑克牌理所应当是最复杂的扑克游戏。但由于复杂的下注策略和手法，他们玩的游戏远不逊于无限德州扑克牌。

正如Kim自己阐述的那样，他觉得这个程序实际上是在看他的牌，但并不像是作弊或其他途径——“就是那么好，”Kim说。正如我们已经提到的，Libratus成功击败了Kim以及其他三名职业扑克玩家，这是人工智能史上首次取得该胜利。

但人工智能软件也不是普通的设计。事实上，这并不是一个单独的软件来对付这四个扑克玩家。卡耐基梅隆大学学生Noam Brown和他的导师Tuomas Sandholm教授创建了Libratus，这是三个独立系统的副产品，三系统无缝工作以确保最终的结果，这种方式基本上是吞噬专业人士。甚至有人参与了这个过程，但我们不要忘乎所以地讨论个别因素。

学习动作方法

负责发现和测试游戏中所有可能的手法的首要元素称为强化学习。在当今的人工智能世界中，获得广泛好评的流行软件称为深神经网络。神经网络允许机器模仿所有的人类动作和手势，甚至在某个时刻超越它们。

然而，Libratus没有使用深层神经网络进行操作。它是基于另一种被称为强化学习的人工智能。从根本上说，这个软件一次又一次地对自己下手，最终完善了它的知识库。

但与其他类似平台（比如谷歌的AlphaGo）的一个不同之处在于，Libratus并非出于获得基本技能然后出于完善自身的目的与人类竞争。而是，它被赋予了基本的游戏规则，然后必须从零开始学习一切。

在此过程中，最突出的因素是以惊人的频率随机打牌。经过数万亿次的练习和数月的高强度训练，Libratus达到了熟练水平。它不仅可以击败职业玩家，而且还可以发挥职业玩家无法猜到的最多随机手牌。

选择最佳动作

这个过程中的第二个元素是一个叫做“最终游戏求解器”的软件。当Libratus自身掌握了所有可能的动作和手法的时候，便创建了一个庞大的假设场景数据库。不过，在这部戏中，人工智能不必逐一检查，也不必测试最合适的版本。

在最终游戏求解器的帮助下，Libratus设法将注意力集中在游戏上，并在此过程中学习。这样，随着游戏的进行，可能采取的策略数量成倍减少，只剩下那些适合对手的场景。

因此，一个人工智能软件的两个独立部分相当复杂，从而能够对熟练的扑克玩家构成挑战。然而，它们仍然没有足够的效力来从事Kim和其他类似之人所从事的工作。他们可以找到Libratus每项动作的根本模式，并利用它们为自己谋利。

消除范式

为了避免这种情况，Libratus背后的两位创造者设计了第三个平台，消除了所有可识别的模式和相似之处。它的工作原理如下：比赛结束后，每天晚上，Brown和Sandholm都会运行他们自己的算法来检测这些模式并消除它们。通常，这个过程耗时一整夜，之后这些模式就不复存在了。

因此，正如你所看到的，Libratus不仅涉及人工软件和机械化，而且如前所述，还涉及人为因素。人工智能就是这样：虽然许多人认为它是一个可以自我运行并完全独立于人类干预的自给自足的实体，但现实情况却不同。在现实生活中，人类和人工智能是并肩工作的，对彼此的行为做出一定的调整。在这种情况下，人类将人工智能置于起点，而人工智能克服了缺陷到达了终点。

人工智能的未来就在于此