【未来科技】赌神慌了:最强德扑圈AI面世,再现“深蓝”传奇

  • 256
  • A+

十多年前的1997年,由IBM研发的计算机“深蓝”战胜了当时的世界棋王卡斯帕罗夫,这场世纪性的”人机象棋对战”最终以人类败给计算机而落幕,开创了史上人工机械智慧战胜人脑智力的先河。人们在当时为这场别开生面的电脑博弈传奇感叹之际,也开始了对人工机械智能的深切担忧:机器会否最终超过人类,进而取代人类成为世界的口袋德州主宰?

如今,人机博弈机器胜的一幕再度上演。不过,这回,连我们曾经风流倜傥、拥有无数粉丝热爱的“赌神”也要坐不住了:人类在德州游戏领域也不再是最强者,在国际象棋领域之后,AI开始向新的人类高等智力游戏领域进军,开始问鼎德州游戏冠军的巅峰了!



Pluribus:再创人机博弈新纪元

近期,一款由CMU和Facebook联合研发的名叫“Pluribus”的AI扑克牌机器人在六人无限制德州游戏这项复杂游戏中,碾压了人类职业选手——这是AI机器人首次在规模超过两人的复杂对局中击败顶级人类玩家。与其他动辄上百万美元的AI突破性成果形成鲜明对比,Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元!

许多网友们纷纷感慨:“原来小资源的研究也能推动人工智能研究大步向前发展”。这项研究让人们对如何构建通用的人工智能有了更好的基础理解。



横空出世的德扑AI,打遍天下无敌手

Pluribus是Facebook与卡内基梅隆大学合作开发的德州教学新型AI机器人,它成功实现了这一目标,击败了德州游戏精英人类玩家:比赛采用六人无限制德州游戏。Pluribus在“五个AI和一个人类玩家”和“一个AI 和五个人类玩家”的比赛中都击败了人类职业玩家。

在每个筹码价值1美元的假设下,Pluribus每手牌平均能赢5美元,在与五名职业玩家的对战中,每小时能赢 1000美元。可以说是取得了决定性胜利。

Pluribus是AI人机对战中的有一个全新里程碑,为什么呢?因为AI第一次突破了双人零和德扑简介博弈第一次表明了AI算法可以在双人零和博弈领域之外,达到超过人类的表现。



“不完全信息博弈”:

打破传统博弈论的桎梏

目前,很多超越人类的人工智能都是关于两人零和游戏,如围棋、以及“深蓝”所涉及的国际象棋:游戏中只能有一方可以获胜,用博弈论的术语来讲,这些人工智能所做的都是在找到一个接近纳什均衡的策略。所谓纳什均衡策略就是指一系列能够使自己预期收益最大化的策略,无论对手做什么行动,至少自己不会输,另一个博弈者也会采取同样的策略。

但是,Pluribus偏偏就是打破了传统博弈论最优策略的桎梏,探寻了一套独特的“自我博弈”策略:通过自我博弈计算出自己的策略。换句话说,Pluribus 不断跟自己的分身玩德州游戏,期间没有任何人类或其他人工智能的参与。最初,Pluribus 作为新手,行动完全随机,但它会不断改进自己的策略,逐渐提高自己的水平。自我训练得出的策略被称为“蓝图”。然后,Pluribus 就和真实玩家对战,积累实战经验,期间不断改进自己的策略。

据悉,Pluribus 采用了蒙特卡洛虚拟遗憾最小化算法(MCCFR)。MCCFR 会随机考虑一部分行动,而不是所有可选行动,来选择应该采取的决定。在MCCFR的每一次迭代中,人工智能会根据在场玩家的策略模拟一盘游戏,然后找出自己在模拟游戏中的最优策略。

“蓝图”策略只是一个粗略的策略。基于“蓝图”,Pluribus 在跟真正对手博弈的时候,用实时搜索(real-time search)技术寻找更好的策略。不同于围棋等完全信息博弈(perfect-information games),六人德扑俱乐部是不完全信息博弈(imperfect-information games)。



“会后悔”的AI,才是AI中的“战斗机”

智慧生命最大的特点就在于能够总结经验,并不断通过经验进行感知学习,从而得到进化和发展。由于纳什均衡的存在,使得之前的AI游戏机器人依然囿于“有限制对战”的范畴,因此过往的AI在三个或更多玩家参与的游戏中,纳什均衡而很难有效进行预期收益最大化计算,而纳什均衡也导致AI依然不是真正如同人类智慧一般有一个“尝试——学习——总结——进步”的过程存在,而仅仅做到了通过算法总结对手的特点和规律,避实就轻,被动地钻对方弱点的“空子”,从而达到了自己肯定不会输的一个结果。然而,在有两个以上玩家参与的德扑圈作弊中,即使在精确的纳什均衡策略下,有时也无法避免失败。

纳什均衡数学模型示意图

而Pluribus与以往的AI不同之处在于,在六人制非零和的德州游戏中,目标不应该是确定特定的博弈论解决方案的概念。为此,Pluribus独创了一种新的方法,他们假设每个玩家会有自己的4种策略,包括“蓝图”策略和它的三个变种,并且会在游戏中选择其中一种。由于对手会变换策略,Pluribus 就会计算出比较平衡的策略,而不会偏向于只采取某些决定。另外,为了防止被对手看穿自己的策略,Pluribus 会先计算如果手上的牌跟现在不一样时,会采取什么行动。

深度优先的逻辑形式为系统带来了反事实遗憾的“后悔点”

同时,Pluribus在每一回合中都会被加入一个虚拟遗憾值,使它会后悔上次没有用其他更好的策略,那么下一轮人工智能就会有倾向选择上次后悔没选的策略。就这样,Pluribus每局都在学习如何击败以前的自己,从而不断提高自己的水平。Pluribus 得出一个可以平衡各种情况的策略后才开始该回合的行动。这正是机器进行经验积累学习的过程,对于AI机器人来说,这通常被认为是“超人”的表现



隐藏信息解读:

主动出击才是AI与人类拉进距离的本质性诀窍

与”深蓝“不同的是,Pluribus面对的扑克牌类游戏,是典型的”隐藏信息解读“类游戏。与所有信息都摆在棋盘上一目了然的棋类游戏不同的是,扑克牌游戏除了研究对手策略,还需要解读对手的牌面后所隐藏的未知信息。也就是说,AI和人类一样始终无法知道对方的牌是什么,要想在扑克中获胜,也需要bluff(虚张声势地吓唬)或者使用其他策略,这在棋类比赛中一般是不需要的。这是牌类游戏独特的乐趣所在,也是AI进军牌类游戏真人德扑圈有没有挂的最大阻碍,使得在扑克中应用人工智能变得非常困难,也是游戏中人类智慧与机器智慧最大的一个“分水岭”。

有人认为,多人扑克已经不是一种游戏,而更像一种需要多种技能的艺术表达,这种艺术需要我们能够有效甄别其他人的互动、肢体动作甚至微表情,更需要决胜者可以利用这些信息在这次博弈中取胜,简单来说,这是忽悠和防忽悠能力的对抗。而这种观察别人表情、虚张声势的能力是一般观念中认为任何机械智能永远无法拥有的最“人性化”的性能,一定需要直视对方的眼睛,声东击西让对方难辨真假。

图片来源:量子位

但是,Pluribus却具备了一种普通AI不具备的“颠覆性”性能,在这里,虚张声势的含义也可以被提升为一种基于算法和训练的能力,一种进阶版的谈判博弈能力。对手越多,需要处理博弈的隐藏信息越多。也就是说,我们的Pluribus不但可以总结出对手的规律和套路、反省自己之前打法的软肋,还会主动出击,通过德扑游戏规则对于隐藏信息的解读从而推断出对手的心理,开启了一种“人机心理战“的新人机互动形式。


德州扑克
德州扑克