纳什均衡、博弈论、strategic和德扑理论的关系

1271

A+

"The laws of science are nothing more than statements expressing these regularities as precisely as possible" —— Carnap(书中摘录)

内容参考<A Course in Game Theory>，每次学习中断后都得从头再来，“纳什均衡”就是我的abandon～

本文主要从定义和案例的角度写纳什均衡（Nash Equilibrium）—— 博弈论的开篇知识点，初次接触一脸懵，知道德州扑克里有用到。上网搜基本上都是"囚徒困境"，虽然例子很具体，困境是困境，却不懂“均衡”含义体现在哪儿。

经典理论都是大神发现后，人们才觉得似乎挺简单。以后去打德州。

上定义：strategic game中的纳什均衡是这样一种玩家行为组合：在其他人选择不变的情况下，任何人无法通过仅改变自己的选择来获得更大的收益。就像高手比武时，一旦到了拼内力的阶段双方就进入一种不能动的状态，别人不动时自己也没有其他腾挪的空间来速胜。在计算机术语里，类似于整个系统处在某个稳定状态时的一个快照（snapshot）。这样：

一些周边概念：

博弈论（game theory）：分析游戏中玩家互动时产生的现象。里边的概念往往抽象得比较高，并附带很多假设，基础假设有：决策者都是理性的（rational），他们追求确定的目标、奖励，对他人行为的预期与推断也是符合道理的。

strategic：决策者一开始决定要出锤子还是剪子。与之对应的extensive 则是连续收集信息，连续决策。另外还可以根据是一个人出的锥子、剪子是最小行为单元还是一群人的锤子、剪子是最小单元，又分为“合作”与“非合作”。本文内容属于strategic、非合作的范畴。

形式化能更准确地定义概念、且同一个概念多次表述都一致（初次接触这些数学符号时相当头疼。只是随便了解的话建议略过）：

: 玩家个数，、、...
: 玩家可选动作集合
: 某个变量在个玩家的某时刻取值情况
: 上述发生时在该变量的取值
:不考虑，其他人在该变量的取值
: 上述取值情况的集合
: 的偏好关系（定义在上）纳什均衡就是这样的一个，对每个玩家都有

我是，这游戏我们几个可能玩了很多次了，这下一次游戏前，我就打算出锤子（），其他人也做好了他们自己的决策，此时在{锤子、剪子、布}中，我改成剪子和布都不能让我应更多的钱。其他人也一样，他们中任何一个人出手前一刹那改变想法都不能赢更多。

游戏规则确定时，游戏重复玩下去，经过各种试探验证后，每个玩家作出的选择会否有固定的组合。常用的例子是"囚徒困境"，大意如下：（不同版本数值略有差异）

俩小偷作案时被抓住（比如一个撬保险柜一个负责放风，假设他俩之前成功偷过两个高压锅），被抓后分别关押，警察告知每个囚徒一个同样的规则：如果你交代（如共同作案史），你同伙抵赖，那么你检举有功直接释放，你同伙不知悔改判4年。如果你俩都交代，每人判3年，如果你们都没交代，那每人判1年（只有这一起保险柜人赃并获，没算高压锅）。每个小偷的目标都是最小化自己的刑期。

刑期越长损失越大，收益越小。为让收益为正数，定义为：

收益 = 4 - 刑期 (判1年时收益为3，判3年收益为1)

两个人或抵赖或交代，对应各自收益如下：纵向对应P1的选择，横向对应P2的选择，格子里的数字对应两人的收益。如都抵赖时，每个人的收益都是4-1==3