德州扑克持续盈利靠的是运气还是实力

  • 395
  • A+

德州扑克持续盈利靠的是运气还是实力


今天我们的主角不是人

是一台机器叫 Libratus(人工智能)


所谓 人工智能(artificial intelligence,简称 AI),为什么讲他呢?赢钱不是什么了不起的事,也就177万美刀,但今天要说就是人工智能这货 Libratus 居然大部分盈利手段靠的是诈唬!

一台冰冷的机器 在诈唬你~!


先看看人类顶级选手Tom Dwan 是怎么玩诈唬 


他的对手 分别是

1: 2008 WSOP世界扑克冠军 Peter Eastgate



2:Barry Greenstein

德州老行尊,风度偏偏。打牌的盈利都拿去捐助!


 WSOP成绩:

金手镯:3条

钱圈:52次

WSOP总收入:2,645,086美元

 

WPT成绩:

冠军:2次

最终桌:5次

钱圈:19次

 

EPT成绩:

钱圈次数:1次


   



大魔王黑人:Phil  Ivey

战绩辉煌,被称为地球上最强的牌上,线上比赛,现金比赛,无所不能!


征服拿下9条WSOP金手链

30次进入WSOP总决赛

共赢得5960976美元的奖金

职业生涯共赢得了两千多万美元的奖金

一百多次打入钱圈

在各类赛事中累计24次夺得冠军



但这次lvey 也是被屌打但是过程真心刺激,因为水平都是顶尖思考维度下意识操作,仔细看他是真的想Call进去诈唬他的主角Tom Dwan,紧张的眼睛都要掉出来!


然而这些人,已经属于这地球情绪处理得最好那小撮了,看到这里我想到冰冷的人工只能细思极恐~


 



看完以上你大概明白诈唬,到底是个什么样玩法,全世界盈利最多的选手基本都是松凶型顶级的松凶玩法是什么样呢?


就是诈唬和有牌的时候给你的感觉都是一样你完全没办法分析 To call or no To call还是抛硬币吧........


赛程为20天,一共进行了12万手牌的比赛,人工智能Libratus以177万的优势

战胜4位人类选手。


4位德州扑克选手总共输了 177万美刀

其中Dong Kim 的成绩最好

但也输掉了85649美刀

成绩最差的Jason Les

输掉了880000美刀


人类顶级的4位扑克玩家在12万手牌共输掉1766250美刀平均每100手牌输1470个美刀。以每小时打150手牌的速度,平均每小时要输掉2200美刀,这是什么概念?


按当前中国大多数地下德州扑克的游戏,通常玩5/10元大小盲注,1000-2000元一个买进。和人工智能  head up,每小时要输220元,平均一天要输掉220元,20天要输掉4.4万元人民币


如果玩大的50/100元盲注,2万元一个买进平均每天要输2.2万,20天要输掉44万元人民币


而且,那4位选手是世界排名前15的1对1的扑克玩家,对于多数休闲娱乐的德州扑克玩家,输牌的速度可以说是翻倍!


也就说打5/10元盲注,每小时会输上440元,打50/100元盲注,每小时会输上4400元,20天要输掉88万元人民币


如果有人会问,如果把这个人工智能程序拿来,然后连接到国外扑克网站上

赢美刀多爽啊。


天啊德扑光单挑,就有10的160次方的游戏决策点


而且还都是非公开信息博弈!比整个宇宙的原子加起来都要多!宇宙加起来的原子10的75次方!


举个例子 10的9次方是10亿,运行这超级电脑,估计每小时的电费都要比赢来的钱还多。


类似以下网络扑克应用  Play Texas Holdem Against Strong Poker Ai Bots , 这款扑克AI名称叫 HibiscusB,能战胜中级水平的扑克玩家,但没有Libratus强大。扑克迷可以到这个网站和人工智能玩玩  应用界面如下



和他们对战四名选手:

Daniel McAulay (左一)

Jimmy Chou(左二)

Jason Les(右二)

Dong Kim(右一)

人工智能Libratus的项目主任(左三)

工程师(右三)




他们对战了一共12万把手牌,挑了一下,两把两把都是诈唬!第一把机器撞钢板上 !输!



选手Kim这局是大盲,下注274刀 Libratus跟。

首三张公共牌是:♠6,♥5,♠4

机器下注274

Kim跟


第四张开出的公共牌是: 红桃♥8

Libratus再次下注274

选手Kim则直接下注3151

Libratus的选择是继续跟


最后一张公共牌是:黑桃♠9


这意味着有可能出现“同花”

电脑直接下重注15000

再次把压力抛回给选手Kim

Kim最后还是在犹豫下跟注

Kim手上成顺

Libratus手上是一对♠8♣8

和公共牌组合是暗三条

没错在有花有顺面的情况下

电脑使用

诈唬

诈唬

诈唬 !!!!



Libratus在用难以置信的速度在进步,今天你能找到他的问题,可能明天又或者下把 它就消失了。


第二天 开始又是一把案例

选手Jason Les 当时以一对10 开局,一张是方片,一张是红桃

翻牌之后,三张公共牌是:K、9、4,其中有两张梅花

下注继续

在这种局面下,Libratus按理说应该希望再出一张梅花,凑成一个同花。


第四张公共牌,发出一张5,不是梅花。当时,两边都已经看牌。最后一张公共牌,是一张Q,也不是梅花。


然后,人工智能突然压上了所有的筹码

面对这个局面,Les选择不跟。人工智能赢下一手。


与此同时,Les的拍档Dong Kyu也在一模一样的局面里,但是又有所不同。为了消除运气的影响,这次人工智能和人类玩家的对决,被安排成两对一模一样的牌局。区别是,在镜像局里人类玩家和人工智能手上拿到的牌,进行了对调。


Kyu手上是梅花7梅花3。这意味着,在主局里面对人工智能的疯狂押注,Les如果果断跟进的话,绝对是稳赢的一手牌。


雪上加霜的是,在镜像局Libratus早早为手上的一对10下了重注,最后Kyu也选择不跟,放弃了这手牌。


Libratus经常特别激进的下注,下注的额度远远超过底池里的额度。“其实人类并不这样,通常不会为了赢一点钱,冒着输掉很多钱的风险”,扑克高手Doug Polk说,“但人工智能没有这种心理,它只看怎么玩更好”。


为什么一直说 这4个是世界顶级扑克选手,可大多数扑克迷都没听说过他们。怎么没有 Phil Ivey,   Daniel Negreanu, Tom dwan?


其实,大家每天在视频上看到的那些扑克界的明星都是5-6年前的对局了。当网络扑克兴起后,大量优秀的扑克玩家涌现。任何事情搬到到互联网上,发展速度都变得惊人。5年前的扑克水平在网络上能赢到100万美金,5年后却只能输钱,所以原来的高手,不是现在高手。如今让Daniel Negreanu 到 Poker Star 打1/2美元的游戏,未必定能赢到钱。


这场人类与AI的对局要每天打8-10个小时,打上20天,奖金还不到20万美金。Tom dwan在澳门娱乐场里一手牌输掉1100万美金。所以他们不屑于为了这么点奖金,这么劳心劳累。


2005年以前,互联网扑没兴起时候,大家普遍在线下打扑克,一小时打上20手牌,要练成一个优秀的扑克选手至少要2-3年,而且还需要高人指点。百分80%的人打了7-8年扑克水平还是那样low,那时候高阶的扑克技术也不普及,大部分扑克书籍都是垃圾。


05年后有了互联网扑克,人们1个小时能打1000手牌,速率提高50倍,职业玩家1年能打上千万手牌。各种高深的扑克技巧在网上到处都能找到,于是互联网扑克水平变得越来越高,而且每年都在不断发展新的扑克技巧。


4位高手,在网络进行上千万手牌的对局,都是各大扑克网站1对1赢牌率最高,他们征服了忽略网就必然征服整个扑克界。


而且,2人德州扑克是技巧性最强的模式 在多人对局德州扑克游戏,拿到强牌的概率高,没有牌的时候就可以扔掉,损失很少。而2人对局扑克,每次扣牌就丢掉1.5盲注,跟注时拿到强牌的机会很少。因此,2人德州扑克对局更多的bluff,发现并打击对手的弱点,依靠策略才能赢牌



当人工智能以巨大的优势战胜这4位高手,可以肯定世界上没人能打败人工智能Libratus。因为Libratus是根据纳茨博弈理论,经过Counterfactual Regret Minimization(反事实思维) 方法学习后,形成最完美的扑克打法


在 1 VS 1对战(也就是只有两位玩家)的有限下注德州扑克中,AI 曾经取得了一些成功。但是,一对一有限注的德州扑克,全部的决策点(decision points)只有不到10的14次方个。作为对比,计算机已经在围棋上完胜人类专业棋手,围棋是一个完美信息的游戏,约包含有10的170次方个决策点


非完美信息游戏要求更复杂的推理能力。在特定时刻的正确决策依赖于对手所透露出来的个人信息的概率分布,这通常会在他们的行动中表现出来。但是, 对手的行为如何暗示他的信息,反过来也要取决于他对我们的私人信息有多少了解,我们的行为已经透露了多少信息。这种循环性的推理正是为什么一个人很难孤立地推理出游戏的状态,不过在完美信息游戏中,这是局部搜索方法的核心



在非完美信息游戏中,比较有竞争力的AI 方法通常是对整个游戏进行推理,然后得出一个完整的优先策略。CFR ( Counterfactual regret minimization)是其中一种战术,使用自我博弈来进行循环推理,也就是在多次成功的循环中,通过采用自己的策略来对抗自己。


如果游戏过大,难以直接解决,常见的方法是先解决更小的、浓缩型的游戏。最后,如果要玩最初的大型的游戏,需要把原始版本的游戏中设计的模拟和行为进行转移,到一个更“浓缩”的游戏中完成


这个对局的规则是这样的,AI和4位人类选手分别单挑(heads up),每手牌都拥有200bb的筹码(每手牌都把筹码重置到200bb)。理解无限注德州扑克的人很容易看出来,准确来说,这个对局的结果只说明:在深筹码的heads up下,AI的综合决策能力比人类更为出众。



这里有两个限定词,第一是深筹码。在真正的德州扑克游戏中,参与者并不一定能够随意买入人一多的筹码。一来是牌桌规则不允许,二来是bank roll也未必支持。这样,当一个比较激进的玩家进行投机失败,损失大量筹码之后,就不得不在1:3甚至更低的筹码比例下和对手对决,需要多次胜利才能追回。


第二个限定词是heads up。在1v1的对局中,AI对于自己手牌的Range价值更容易判断,同时对单个人类的行为习惯更容易被分析。或者说,AI更容易通过大量对局,逐渐学习对手的行为模式,得到更好的参考数据。说起来,这个并不需要人工智能这么高级的东西,只需要正确的算法和大量的统计数据。


事实上,在PokerStar上,NL25以上的牌局,大多都需要用到第三方插件,来进行对于对手的数据挖掘,以分析对手的可能行为和进行手牌范围推断。由于计算手牌胜率(vs所有牌型)本身就是计算机的特长,再加上对对手的手牌Range判断,去剪除大量计算分支,配合上对手行为模式的概率分析——我不是说这很容易,我只是说,在Libratus的这个人机对局中,AI这一边选用了对自己最为有利的规则模式。



如果用围棋比喻的话,这大概类似于,在采用蒙特卡洛算法之前,围棋AI要被人类让九子以上才能玩的时代。作为在一家AI公司供职的员工,我也相信AI在无限注德州扑克领域战胜人类只是时间问题。但我仍然想要吐槽一下,这些宣扬人类在德州上已经不敌AI的编辑们,实在是太缺乏节操了。


德州扑克是赌博,还是技巧?德州扑克有运气成分,但比赛总共进行12万手牌,牌运的影响几乎微乎其微。打100-1000手牌,运气还是影响很大的;但打了12万手牌赢到17.66万个盲注,比赛结果的可信度高达99.77%


也就是说,每场比赛打12万手牌,人类与AI进行1000场比赛,AI将赢下998场,人类只能赢下2场。因此,人工智能Libratus 有着完全不可逆转的优势。也就是说,每场比赛打12万手牌,人类与AI进行1000场比赛,AI将赢下998场,人类只能赢下2场。https://www.moshike.com/ 



因此


人工智能Libratus


有着完全不可逆转的优势


我们终其一生,不过是为了找到那个
棋逢对手之人与之共赴温柔岁月
德州扑克







德州扑克