击败世界冠军,AI玩6人炼成超级赌神!训练只需8天

  • 365
  • A+

AI又完成了一项“里程碑式”的挑战。


一款名叫“Pluribus”的AI扑克牌机器人在六人无限制德扑APP这项复杂游戏中,碾压了人类职业选手!——这是AI机器人首次在规模超过两人的复杂对局中击败顶级人类玩家。



这样的一项研究,你肯定会认为训练消耗的成本会非常大,对吧?


但是!恰恰相反!划重点:


Pluribus的蓝图策略在64核CPU的服务器上训练了8天,使用512 GB的RAM,没有使用GPU。在一般的云计算实例价格下,训练费用不到150美元!


这与其他最近的AI突破性成果形成鲜明对比,其中包括那些涉及游戏中真人德扑圈有没有挂自对战的突破,训练成本动辄就需要几百万美元。


许多网友们纷纷感慨:“原来小资源的研究也能推动人工智能研究大步向前发展”。这项研究让人们对如何构建通用的人工智能有了更好的基础理解。


这项研究是由卡耐基梅隆大学与Facebook人工智能团队共同合作完成。目前,各大顶级期刊和知名媒体都在疯狂刷屏报道:


http://www.moshike.com/


https://science.sciencemag.org/content/early/2019/07/10/science.aay2400


https://www.moshike.com/


那么这款德扑APPAI到底为何如此厉害?新智元带你慢慢揭秘。 



Pluribus面向“隐藏信息”更新算法,

战胜职业牌手


几十年来,德扑APP一直是人工智能领域最难以攻克的重大问题之一。因为扑克对局涉及“隐藏信息”。你不知道对手的牌是什么,要想在牌局中获胜,需要成功运用bluff和其他多种策略,这些策略并不适用于国际象棋、围棋等对局。这使得德扑APP成为AI难以攻克的堡垒之一。

 

近年来随着技术的进步,AI在1V1真人德扑对局中,已经能击败顶级人类玩家。但如何开发出能够在1对多的牌局中战胜顶级玩家的AI,仍是研究人员不断努力的目标。

 

Pluribus是Facebook与卡内基梅隆大学合作开发的新型AI机器人,它成功实现了这一目标,击败了德扑APP精英人类玩家:比赛采用六人无限制德扑APP。Pluribus在“五个AI和一个人类玩家”和“一个AI 和五个人类玩家”的比赛中都击败了人类职业玩家。

 

在每个筹码价值1美元的假设下,Pluribus每手牌平均能赢5美元,在与五名职业玩家的对战中,每小时能赢 1000美元。可以说是取得了决定性胜利。

 

Pluribus在此前的德扑APPAI Libratus的基础上进行了几项创新,实现了这一成果,Libratus是2017年在双人无限注德扑APP中击败人类职业选手的AI,我们还借助了Tuomas Sandholm在卡内基梅隆大学研究实验室开发的其他算法和代码。

 

特别是,Pluribus采用了一种新的在线搜索算法,可以通过前面的几个步骤而不是仅仅搜索到游戏结束来有效地评估策略选择。Pluribus还针对涉及“隐藏信息”的对战使用新的、更快的自对弈算法。AI只需非常少的处理能力和内存就能进行训练,只需价值不到150美元的云计算资源。这种高效率与近期其他扑克AI项目形成鲜明对比,后者往往需要价值数百万美元的计算资源才能进行训练。

 


德州扑克
德州扑克