【EV扑克(http://www.evp89.com)报道】
Sherlock,千算教练,接触德州扑克一年即战胜PS z100;在哥伦比亚大学攻读工学硕士期间任《博弈论》《概率论》两门课程助教。
今天给大家带来一堂博弈论基础课,大家熟悉的名词“GTO”全称即为Game Theory Optimal-博弈论最优解。
博弈论基础
博弈论最经典的案例:囚徒困境
两名犯罪嫌疑人被分开审问不能串供,如果他们同时抵赖,每人将被判刑1年,同时招供则会被判刑6年;然而如果一人抵赖一人招供,则抵赖的那个人会被判9年,招供的人会被释放。
看起来双方都抵赖是对彼此最好的选择,然而这种最优局面能实现吗?
站在A的立场
如果B抵赖,自己抵赖的收益是-1,自己坦白的收益是0,抵赖是不可取的
如果B坦白,自己抵赖的收益是-9,自己坦白的收益是-6,抵赖是不可取的
站在B的立场
如果A抵赖,自己抵赖的收益是-1,自己坦白的收益是0,抵赖是不可取的
如果A坦白,自己抵赖的收益是-9,自己坦白的收益是-6,抵赖是不可取的
因此,对双方来说,抵赖都是不会被选择的策略,最终会形成双方都坦白,每人获刑6年的结局。
“双方都坦白”这一局面,就被称为“纳什均衡-Nash Equilibrium”。这是博弈论中最重要的概念,它的定义是:任何一个参与者单独偏离均衡点,均不会导致自己的结果变好
我们来验证一下这一定义
如果A单独将自己的策略从坦白变成抵赖,他的刑期将从6年增加到9年,结果变差了
同理,如果B单独将自己的策略从坦白变成抵赖,他的刑期将从6年增加到9年,结果变差了
以上就是博弈论中最经典囚徒困境案例,是不是很简单~
博弈论四个基本要素
接下来我们从这个案例出发,讲一下博弈论的四个基本要素:参与者、信息、策略和结果,由这四个要素组成的问题是适合用博弈论来研究的。
显然竞技扑克是适合用博弈论来研究的,然而单一手牌和长期的扑克游戏对应的博弈论四要素其实是有差异的。
四种游戏类型:完美信息静态博弈(囚徒困境)、非完美信息静态博弈(医药)、完美信息动态博弈(围棋)、非完美信息动态博弈(竞技扑克)
根据游戏是静态还是动态的,参与者知道的信息是全面的还是不全面的,博弈论研究范畴中的游戏可以分为四类,其中竞技扑克游戏是最复杂的非完美信息动态博弈游戏。
以上是博弈论基础知识部分,有想深入学习博弈论的同学这里给大家推荐一套免费的公开课,是耶鲁大学经济学院录制的,配有中文字幕(http://open.163.com/special/gametheory/)。
这里我们就不深入讲博弈论的知识了,接下来我们就用博弈论这些最基础的知识,来重新审视一下我们熟悉的德州扑克游戏。
AKQ Toy Game
相信很多爱学习的扑克玩家都听说过AKQ Toy Game,今天我们就带大家来完整演算一遍。
游戏规则如下:
两位玩家,没人手中一张牌,后行动的玩家2手牌一定是一张K,先行动的玩家1手牌有50%可能性是A,50%可能性是Q;且双方都知道对方的手牌分布
底池有100bb筹码,双方各有100bb筹码,双方如果选则下注,下注尺度只能选择100bb allin
动态博弈游戏的求解过程是逆序求解,我们先来考虑后行动的玩家P2的策略:
如果P1没有下注,那么P2是没有理由下注的,因为面对P2的下注P1只会用A(如果P1过牌范围中有的话)跟注,Q弃牌
如果P1下注,那么P2不能100%的跟注,因为这样的话P1就可以只用A下注
如果P1下注,那么P2不能100%的弃牌,因为这样的话P1就可以只用全部的A和Q下注
综上,P2的策略应该是:如果P1过牌,则随后过牌;如果P1下注,则以一定频率跟注,具体频率还需要计算,我们先设为未知数y
接下来我们看P1的策略:
因为自己过牌后P2 100%会过牌,而自己下注后P2有一定频率y跟注,所以P1手持A时应该100%下注
P1手持Q时不能100%的过牌,因为这样的话P2就可以在面对P1下注时100%弃牌来使得P1手持A下注时拿不到价值
P1手持Q时也不能100%下注,因为这样的话P2面对P1的下注范围有50%的胜率,而P2跟注只需要33%(=100/(100+100+100)),P2可以100%跟注自动获利
综上,P1的策略应该是:手持A时间100%下注;手持Q时以一定频率下注,设为未知数x
经过以上分析,我们发现双方各自还有两个行动不确定:P1手持Q的时候该以怎样的频率过牌和下注;P2面对P1下注时该以怎样的频率跟注和弃牌。这四个未确定的行动各自的EV表达式如下:
EV(P2 Call)=300*x/(1+x)-100
EV(P2 Fold)=0
EV(P1 Bet with Q)=200*(1-y)-100
EV(P1 Check with Q)=0
两位玩家都想达到对自己最优的结果,也就是说,让对方调整他的频率并不能带来他EV的升高。也就是说,P1通过给出确定的x,让EV(P2 Call)=EV(P2 Fold);P2通过给出确定的y,让EV(P1 Bet with Q)=EV(P1 Check with Q)
联立方程组可以解得:x=50%,y=50%
我们来总结一下双方的策略以及底池的100bb是如何分配到各条策略树上进而分配给两位玩家的:
P1手持A时100%下注;手持Q时50%下注,50%过牌
P2面对P2的过牌100%过牌;面对P1下注时50%跟注,50%弃牌
策略树在P1行动时分为两个分支,75%的情况下进入P1 bet分支,其中P1手持A的情况占50%,Q占25%;另外25%的情况进入P1 check的策略树分支,此时P1一定持有Q。
进入P1 check分支后,P2 100% check,游戏结束,P2通过摊牌K赢Q收下底池100bb;进入P1 bet分支后,P2会有两个子分支,50%的call和50%的fold,P2 fold的EV显然是0,P2 call时,由于P1下注范围中的价值咋呼比是2:1,与P2的抓诈赔率2:1相等,所以P2的跟注也是0EV。
因此,只要进入P1 bet的策略树分支,无论P2是call还是fold EV都是0,P1收下底池全部100bb。
我们可以看到,虽然双方范围equity都是50%,但是P1因为手持极化范围,获得了了75%的EV。
囚徒困境进阶
为了后面更好的讨论如何应对跟注站和疯狂咋呼两种娱乐玩家,我们需要准备一些博弈论进阶知识。
我们刚刚提到过,博弈论游戏的四要素分别是:参与者、信息、策略和结果,这里我们默认了结果即等于收益。
如果参与者的收益不只是直接的结果,还受其他因素影响,会有什么变化呢?
回到囚徒困境的例子,如果两个犯罪嫌疑人都是“利他型”参与者,即希望对方也得到好结果,情况就会发生变化。我们给出一个新的收益公式
y1’= y1+0.8*y2
y2’= y2+0.8*y1
也就是说,嫌疑人A的最终收益不只是自己的获刑结果,还要加上B的结果乘以一个0.8的系数;B也同理。这样一来,双方虽然面临四种情况不变,但是每种结果的收益发生了变化,如下图所示
在这个模型下,双方就能达成同时抵赖,结果是没人被判一年,双方收益都是-1.8的新的纳什均衡。
如何应对跟注站老板
在AKQ Toy Game中,如果P2是跟注站玩家,情况又会发生什么变化呢?
关键是如何量化“跟注站”这一行动倾向上的偏移,并把它带入EV公式。
P2之所以会从理智玩家偏移为“跟注站”,是在他的价值判断体系中,自己的K面对P1的Q诈唬弃牌时,不只没有赢下底池,还会额外损失a的情绪上的不爽,同时P2认为P1会因为诈唬成功收获这a的情绪价值(因为竞技扑克是零和博弈)
双方各个行动新的EV公式如下
EV(P2 Call)=300*x/(1+x)-100
EV(P2 Fold)=-a*x/(1+x)
EV(P1 Bet with Q)=(200+a)*(1-y)-100
EV(P1 Check with Q)=0
可以解得
y=(100+a)/(200+a)x=100/(200+a)
如果我们作为P1玩家,观测到P2玩家的跟注频率从均衡值50%偏移为55%时,可以求出P2心目中a的价值是22.22,进而可以算出我们对应的最优策略是手持Q时下注频率从50%下降到45%
注意,这是一个P2认知偏移前提下的均衡策略,而不是P1采取的最大剥削策略。从最大剥削的角度来说,如果P2跟注频率高于最优频率哪怕只有1%,P1都应该放弃全部诈唬,只做价值下注。
但是,这种最大剥削策略的漏洞十分明显,很快会被P2观测到并反剥削。而现在这个偏移后的均衡解,是可以长期保持的,它的本质是P2在为自己的错误认知付费。
我们来看一下调整后的EV分配:P1 check的频率从25%上升到27.5%,P2在这条分支上同样收获底池全部100bb;P1 bet的频率从75%下降到72.5%,其中A占50%,Q占 22.5%,下注后P2跟注频率从50%上升到55%,进而导致P2在P1 bet后fold EV依旧等于0。
但是call的EV从0变为-6.9,从而使得P1虽然更少的进入bet这个分支,但在个分支上每次收益从100bb上升到103.8bb。P1的总体EV从75上升到75.3,P2的总体EV从25,下降到24.7。
如何打疯狂咋呼老板
有了刚刚的分析,我们可以快构建另一种场景的数学模型:P2是理智玩家,但是P1偏爱诈唬。
P1的认知偏差为:自己手持Q下注时(无论是否诈唬成功)都会获得额外b的情绪价值,而P2一旦弃牌就会损失b。
EV公式如下
EV(P2 Call)=300*x/(1+x)-100
EV(P2 Fold)=-b
EV(P1 Bet with Q)=(200)*(1-y)-100+b
EV(P1 Check with Q)=0解得
y=(100-b)/200
x=(100-b)/(200+b)
当P2观测到P1下注频率从75%上升到80%时,意味着P1手持Q是下注频率从50%上升到60%,进而可以解得b=-12.25,y=56.25%。新的EV分布如下
知识点总结
博弈论基础
四要素:参与者、策略、信息、结果(+收益)
四种游戏类型:完美信息静态博弈(囚徒困境)、非完美信息静态博弈(医药)、完美信息动态博弈(围棋)、非完美信息动态博弈(德州扑克)
纳什均衡:任何一个参与者单独偏离均衡点,均不会导致自己的结果变好
AKQ Toy Game
双方范围equity相同时,EV不一定相同
范围更极化的一方EV更有优势(能超额实现权益)
博弈论进阶
博弈论游戏中参与者收益不一定直接等于博弈结果,本文展示了利他型参与者的收益模型,其他常见的收益模型还有“不公平厌恶型”,“波动厌恶型”等
面对跟注站玩家,应该减少诈唬
面对诈唬过度玩家,应该增加抓诈
庆祝新纪录诞生!iPhone15 Pro Max无限送活动再延长
国庆佳节,好事成双~为庆祝GGPoker再次突破吉尼斯世界纪录,“iPhone15 Pro Max无限量赠送”活动将延长至10月13日,果粉们全嗨翻了!
现在只要在前注9人桌指定级别中拿到特殊牌型,例如:皇家同花顺,就可以到登记区填写领取最新款iPhone15 Pro Max,同时还有加倍活动。
目前已经有数位国人达成,符合领取iPhone15 Pro Max的资格。
注意!只送不卖~不同级别将对应不同iPhone奖励,立马前往赛事专区了解,多款最新iPhone15免费送给你!
WSOP送你去度假胜地——天堂岛
本届「WSOP线上金手链系列赛」在赛制上增加了冠军免费赛,只要你所属区域的玩家夺得金手链,其他参加同一场比赛的玩家,将会自动受邀至专属免费赛!最高可瓜分10W刀奖励及WSOP天堂岛站席位。
另外,四大区域的洲际排行榜冠军,也将赢得35,000刀「WSOP天堂岛站VIP套票」!本次「WSOP线上金手链系列赛」将是一场从线上到线下,结合最豪华的超级扑克狂欢体验!
免费赛史上最大变革 ”免费体验场”来了!现在开始可以随时随地可以享受真实的游戏体验!我们提供丰富多样的玩法,包括德州扑克、奥马哈、短牌等等,让您尽情挑战自我,提高技巧。不仅如此,可以从游戏中获得体验币,所有玩家每日可以领取20,000,新加入朋友还可额外获得20,000,助您迅速上手。加入我们的免费扑克游戏,和全球的牌手们一起切磋技艺,感受扑克游戏的乐趣吧!
EV扑克作为GGPoker在国内新开设的旗舰品牌,每月不断推出福利反馈活动,现在只要成为EV新用户,达成免费赛任务就可以获得——“EV专属大宝箱”启动码1组
加入EV扑克战队:http://evpk7.com/96088再送4张免费门票!
想跟美女Sashimi一起玩,想知道最新资讯与赛程,敬请锁定EV扑克官网(http://www.evp89.com)。看牌手痒玩EV扑克,每日多场免费赛奖励高达20w,现在注册EV扑克(evp89.com)额外加赠8张幸运赛门票最高奖励1500倍!
全天24小时随机将掉落现金红包至牌局底池或玩家余额!快体验吧
EV扑克GG全新中文旗舰站 追求高EV的决定 就是扑克的本质
EV扑克娱乐场强势上线疯狂送钱,注册免费转老虎機100次!国际认证最安心!
EV扑克最新网址:http://www.evpks.com
EV扑克官方网址:http://www.evp89.com
EV扑克官网:http://www.ev扑克官网.com
EV扑克下载:http://www.ev扑克下载.com
EV扑克官方下载:http://www.evpk66.com
EV扑克电脑版网址:http://www.evpk88.com
EV扑克GG官方:http://www.evpk68.com
EV扑克战队:http://evpk7.com/96088
EV扑克官网:http://www.evpukes.com
EV扑克小游戏 https://www.evgames.cc
EV扑克娱乐场 https://www.evpkcasino.com
GG扑克小游戏 https://www.ggpkcasino.com
蜗牛扑克最新网址:http://www.allnew36.com
蜗牛扑克官方网址:http://www.allnew366.com
蜗牛扑克网址发布页:http://www.allnewpuke.com
蜗牛娱乐官网:http://www.allnewapl.com
蜗牛扑克GG官网:http://www.ggallnew.com