纳什均衡、博弈论、strategic和德扑理论的关系

  • 1268
  • A+

"The laws of science are nothing more than statements expressing these regularities as precisely as possible"   —— Carnap(书中摘录)

内容参考<A Course in Game Theory>,每次学习中断后都得从头再来,“纳什均衡”就是我的abandon~
本文主要从定义和案例的角度写纳什均衡(Nash Equilibrium)—— 博弈论的开篇知识点,初次接触一脸懵,知道德州扑克里有用到。上网搜基本上都是"囚徒困境",虽然例子很具体,困境是困境,却不懂“均衡”含义体现在哪儿。
经典理论都是大神发现后,人们才觉得似乎挺简单。以后去打德州。
上定义:strategic game中的纳什均衡是这样一种玩家行为组合:在其他人选择不变的情况下,任何人无法通过仅改变自己的选择来获得更大的收益。就像高手比武时,一旦到了拼内力的阶段双方就进入一种不能动的状态,别人不动时自己也没有其他腾挪的空间来速胜。在计算机术语里,类似于整个系统处在某个稳定状态时的一个快照(snapshot)。这样:


一些周边概念:
博弈论(game theory)分析游戏中玩家互动时产生的现象。里边的概念往往抽象得比较高,并附带很多假设,基础假设有:决策者都是理性的(rational),他们追求确定的目标、奖励,对他人行为的预期与推断也是符合道理的。
strategic:决策者一开始决定要出锤子还是剪子。与之对应的extensive 则是连续收集信息,连续决策。另外还可以根据是一个人出的锥子、剪子是最小行为单元还是一群人的锤子、剪子是最小单元,又分为“合作”与“非合作”。本文内容属于strategic、非合作的范畴。
形式化能更准确地定义概念、且同一个概念多次表述都一致(初次接触这些数学符号时相当头疼。只是随便了解的话建议略过):

 玩家个数,...
 玩家可选动作集合
 : 某个变量在个玩家的某时刻取值情况
 : 上述发生时在该变量的取值
 :不考虑,其他人在该变量的取值
 : 上述取值情况的集合
 的偏好关系(定义在上) 纳什均衡就是这样的一个,对每个玩家都有


我是,这游戏我们几个可能玩了很多次了,这下一次游戏前,我就打算出锤子(),其他人也做好了他们自己的决策,此时在{锤子、剪子、布}中,我改成剪子和布都不能让我应更多的钱。其他人也一样,他们中任何一个人出手前一刹那改变想法都不能赢更多。

游戏规则确定时,游戏重复玩下去,经过各种试探验证后,每个玩家作出的选择会否有固定的组合。常用的例子是"囚徒困境",大意如下:(不同版本数值略有差异)

俩小偷作案时被抓住(比如一个撬保险柜一个负责放风,假设他俩之前成功偷过两个高压锅),被抓后分别关押,警察告知每个囚徒一个同样的规则:如果你交代(如共同作案史),你同伙抵赖,那么你检举有功直接释放,你同伙不知悔改判4年。如果你俩都交代,每人判3年,如果你们都没交代,那每人判1年(只有这一起保险柜人赃并获,没算高压锅)。每个小偷的目标都是最小化自己的刑期。

刑期越长损失越大,收益越小。为让收益为正数,定义为:

收益 = 4 - 刑期 (判1年时收益为3,判3年收益为1)

两个人或抵赖或交代,对应各自收益如下:纵向对应P1的选择,横向对应P2的选择,格子里的数字对应两人的收益。如都抵赖时,每个人的收益都是4-1==3

           

用囚徒困境举例时,通常认为游戏参与者仅是小偷,不包括警察。警察和小偷也是在“博弈”,但他利用“困境”设计了这个游戏。
游戏过程中,在利己的假设下,小偷会做这样的判断:如果同伙咬牙坚持,我坦白,我就能直接释放。万一他交代了,我要是还抵赖,就得判4年,我依然要坦白。所以这里只存在一种纳什均衡——双方都老实交代,然后分别被判入狱3年。其他的组合都是不稳定的。


是不是感觉离大团圆的结局好像只差那么一点点?你会想只要我坚持住,默念小纸条“打死我也不说”,他也可能和我的想法一样,就一起坚持,“

德州扑克







德州扑克