主题：【原创】纳什均衡即为势--对博弈论的分析 -- baiqi

共:💬43 🌺79 新:

触类旁通

分页树展主题 · 全看下页

家园 【原创】纳什均衡即为势--对博弈论的分析

http://2323343.blogbus.com/
纳什说一个谈判要么破裂，要么结果一定是有限个均衡点的一个，所谓的均衡点，就是全方面无限深度考虑，我就只有这样选才行，再好的不可能发生，再坏的就吃亏：大家都这么想，就会有一个大家都感觉合适的点，达到这个点后(纳什的主要贡献是证明这个点是存在的)，大家都不会想改变了。要做到无限深度思考，前提是
1人是绝顶聪明
2大家都认为每个人绝顶自私
3绝顶贪婪，如果有得到1000元与1001元的方案，也必定选择后者。
然而，人不是绝对理性的，如果抛弃第1项,可以得出：在无数个重复的谈判中，人会根据上一回谈论的结果以及取得的实际效果，再次决定下一回谈判的取向，最终会趋于均衡点，这,就是势。生物进化学与均衡点相结合取得了不错的结果，比如说，在《自私的基因》当中提到的，如果基因突变的新物种，面对旧物种有一个较高的胜率，于是因为较多的胜出，可以获得更多的资源，包括配偶权，因此扩大了基因，使自己的后代增多，当属于自己物种的数量增多，使得在与同种生物竞争时，胜率相当，空间固定，属于自己的物种增多，竞争次数也不免增多，高胜率不能保持，于是数量增长减速趋于0，于是两个物种的数量达到平衡，当然，某一方的数量因为偶然事件突变，那么仍旧会再次趋于平衡点，并在平衡点上下波动，直到新的物种出现，引入一个新的平衡点。
　　
　　二人谈判必有有限的均衡点，但如果均衡点多于1个，那么问题仍然很大，它只是说如果最终达成了谈判则必定属于（假设是绝对理性人）其中一个，但属于哪一个，并不清楚，有可能因为多于1个，反而达不成妥协。纳什发觉，之所以产生多个均衡点，是因为他认为人应该是这样思考的：如果对方实行A策略，那么我就用B策略应对；如果对方实行C策略，我就用D策略。他认为该抽象有问题，于是发展了混合策略模型，即人应该是这样思考的：对方实行A的策略概率为 p,实行B策略的概率为（1-p），我应该使用C策略的概率为q,D策略的概率为(1-q).如此抽象，发现二人谈判必定只有一个均衡点。这说明两个问题：
1.纳什的理论也是基于某种抽象，他的理论的正确性完整性适应性依赖于他抽象的好坏，只能说是接近于真相的理解，可能也未必完备，比如说他认为人是绝对自私的，这个其实不太正确；
2.他认为概率是客观存在的，认为"对方实行A的策略概率为 p,实行B策略的概率为（1-p）"是合理的,期望（统计学中的期望）是有效的（即，期望对人的决策影响是有严格规律的），期望是否有效，现在还是个问题。
　　
　　这里有个例子：比如说石头剪刀布。如果没有混合策略模型，照里说虽然有平衡点（三个平衡点：两人出石头，两人出剪刀，两人出布），但是根本就不会趋于这三个平衡点（三个，如何趋于？）。但是，如果对方就认准你出三者的概率是p1,p2,p3,而你认识他出三者的概率为q1,q2,q3,这个平衡点经过运算后就只会是一个（如：两人出包）。这个观点在<big bang theory>某一集所说的"一群相处久了的人,在包剪锤游戏当中,他们倾向于出同一种".
　　
　　纳什继续推广，如果是N人彼此之间没有合作的博弈，是否有这样的均衡点呢？他证明是有，且有一个（在混合策略模型下）。
　　
　　平衡点是必然之趋近，一个人能够准确的预测到该平衡点的存在，也就是说把握了大势。比如说一个游戏：有固定的60亿人，每个人都给一个从0到 1000的数字，所有的数字的平均数的1/3记为a,哪个人给的数字最靠近a,这个人就获胜。如果大家都是绝对理性人（超级聪明，绝对自私），那么大家都会猜是0，但是可能读者读到这儿都未必知道会是0吧，只能说不是绝对理性人。这个游戏反复地玩，大家的平均数就越来越小，直到最后大家都不约而同地选择 0.
　　
　　但是必须得怀疑人世间实在的游戏是否会这么简单，平衡点是基于固定人群、固定可选策略下才存在的，人群不固定、不可预测的新策略也随着科技发展（或其他变化）而生成，导致了系统不是固定的，平衡点可能不存在。比如,在生物进化理论当中,新的物种持续产生,这种假想的平衡点,在现实中根本找不到对应.这一思想在索罗斯的<金融炼金术>中继续阐述,在现在的股市，如果平衡点存在，所有股票分别的价格都会远近于某个平衡点，但是平衡点在现实中根本没有出现,我们应该反省抽象模型的适用性.其实索罗斯的思想与混沌理论有密切相关,尽管他本人可能不知道混沌理论.混沌理论在更广阔的维度探讨事物会趋进的状态,发现会趋进于分形.分形是一种自相似图形,例如树,每个小树枝都很像它所在的大树枝;每天小河,都像它所在的大河;每个山棱都像各大的山棱.各种各样的分形,就是我们应该研究的东西.
——那么,人类社会会趋于什么分形呢?
　　
元宝推荐：铁手,
- 复【原创】纳什均衡即为势--对博弈论的分析
  家园谢钱
  恭喜：你意外获得【铢钱】八个
  鲜花已成功送出，消耗铢钱 1 个，可能得宝。可通过工具取消
  提示：此次送花为【有效送花赞扬，加乐善、声望、帖得花总数】。
- 复【原创】纳什均衡即为势--对博弈论的分析
  家园 补充一下
  ：比如说石头剪刀布。如果没有混合策略模型，照里说虽然有平衡点（三个平衡点：两人出石头，两人出剪刀，两人出布），但是根本就不会趋于这三个平衡点（三个，如何趋于？）。但是，如果对方就认准你出三者的概率是p1,p2,p3,而你认识他出三者的概率为q1,q2,q3,这个平衡点经过运算后就只会是一个（如：两人出包）。
  你举的这个例子，诠释当中有不少需要补充的内容，正好博弈论是我的论文方向，而我导师也有一篇很有意思的文章研究过石头剪刀布游戏。
  首先，“如果没有混合策略模型”是个超级大的假设。这三个策略是如此的对称，因此最有意义的均衡自然是每个玩家以1/3，1/3，1/3的混合策略参与游戏。你提出的其实是一个已有不少理论研究话题，即有多个Nash Equilibria时的Equilibrium Selection问题。因为某些原因settle在某个特定的均衡上（如两人出包）是可以的，但是需要一些额外的东西来break the symmetry，比如你提到的熟人之间的默契，类似于focal point的解释。
  接下来说那个自然的混合策略，我导师提出的问题是，真的就必然要收敛到这个混合均衡吗？回答这个问题需要之前game theory没有太多深究的一样东西，即off equilibrium dynamics：玩家在尚未到达均衡之际（其实大部分时间都是off equilibrium的）是如何对别人的策略做出反应的。简单说一下结论，如果是个good Rock-paper-scissors game（比如赢了得1，输了扣0.5），那么混合策略是收敛且稳定的；而要是个bad Rock-paper-scissors（赢了得1，输了扣2），那才有趣，不收敛，且只要稍有扰动就会奔一个围绕着1/3,1/3,1/3打转转。
  外链图片需谨慎，可能会被源头改
  注：上图仅左下角的那个金字塔描述了RPS game,其他三张无关本主题，请忽视。
  而且如果是带平局的Rock-paper-scissors，混沌可以观察到。
  - 复补充一下
    家园 重复博弈相比一次博弈产生了质变
    其实是我的失误，在混合策略下的均衡点就是一个概率向量（p1,p2,p3,q1,q2,q3),在一般的包剪锤游戏中为(1/3,1/3,1/3,1/3,1/3,1/3).熟人之间产生经常有相同的出拳情况，应该是另有解释。比如说在重复博弈时pi,qi不断的变动，最后产生了p(A出某拳【此拳与B相同】|B出某拳）的概率十分大，在无穷次重复博弈时，概率为100%。这个也可与纳什均衡无矛盾，他们出各拳的概率为1/3,但是出相同的拳的概率为1.但是这个具体是怎么来的，真应了你说的那句，要考虑“玩家在尚未到达均衡之际（其实大部分时间都是off equilibrium的）是如何对别人的策略做出反应的”。如果你有什么见解，请不吝赐教。
    另外一个，不光是你这儿提到的，混合策略模型中重复博弈不能趋于绝对理性人一次博弈得到的结果；其实重复博弈相比一次博弈产生了质变，普遍会得到不同的结果。
    例如囚徒困境，如果是重复博弈的话，那么囚徒会认识到合作的可能性，并试探之。如果某个囚徒采取一报还一报的策略（1.第一次是合作2.以后每一次视对方上一次是合作还是背叛来作出决择：对方上一次与我合作[即两人都不招供]我这回就合作，上一回背叛我，那么我这回也要背叛）那么如果有n个囚徒两两重复博弈，这一策略却是得分最高的。
    所以重复博弈、多人博弈都带来了游戏的质变。
    你给出的链接我看了，你要阐述的主旨大体明白，但图例还有不懂的地方，尤其是一些字母的含义。另外有个想法，不妨这样思考：重复博弈会带来质变，如果在重复博弈下考察趋进这个问题，事实上整个游戏都变了，不如换成绝对理性人一次博弈，根据你给出的bad rps game的规则，看看会得到什么结果。按照纳什的博弈论，有个均衡解。也就是有个均衡概率向量。而如果变成重复博弈，每个理性人在第一次就产生了均衡解，往后会如何发展呢？重复博弈到底有什么本质的不同？这真是个很大的问题啊。
    - 复重复博弈相比一次博弈产生了质变
      家园 我认为重复博弈的和一次博弈的本质不同是
      受到规则的“奖惩”而不停修正自己的行为。
      我认为，纳什模型的一个本质缺陷是没有把规则当作博弈本身的一部分，因而是静态的。
      如考虑囚徒困境，不能只把囚徒当作一个整体，而是要把警察和囚徒当成一个整体来看，从而得出一个整体的博弈结果--从这个整体结果的趋向来看才合理，而不是把囚徒就看成一个整体。因而，囚徒困境的实质只是一个规则导向的问题--就是您说的“势”。
      请您看下我这个根据八卦折腾出来的模型：http://www.ccthere.com/article/3034853。
      “你我他”模型，我以为是这个世界运行的本质模型，可以无限推广。
      所以，我以为人类社会其实也是有分形的，本质是：
      1。所有行为从长期来看都是受到我们未能掌握的天道制约的。
      2。人类社会的存在形式
      a。目的：拥有更多的“力”
      b。方法：尽可能有更多的博弈机会（自由度）。
      由此，可以观察人类社会的分形。
      不吝赐教！
- - -- 系统封号 --。偏要看
  - 复这就是一个数学问题
    家园 【原创】所言极是
    本来就是如此,不过人类社会有很多pattern,很多pattern如果知道其原因就是混沌,可以举一反三.
    比如说:资源的分配多呈现幂率分布,学习曲线为何也是幂率分布,这其中的道理其实是混沌. 比如总体资源的80%属于20%的人群,而这20%人群的20%占有了这20%人群的资源总量的80%,这样一来这条资源曲线总体就呈幂率分布了.幂率分布与学习曲线(experience effect)被大量地用在咨询领域\经管领域,,这个结论已经很靠谱了.
    关于幂率分布,见我的另一篇:外链出处
    我想通过多人的探讨能否得出其他有价值的结论呢?虽然离对人心的认识还有一段很长的路要走.
    - -- 系统封号 --。偏要看
      - 复我有一个想法
        家园 有點道理
        我有個cornell的朋友就是做power law的社會心理學研究的.人類都有羊群心理. 容易出現正反饋的現象,就是越多人這麽做,其他人也容易做.
      - 复我有一个想法
        家园 不妨一述
        -- 系统封号 --。偏要看
      - 复我有一个想法
        家园 所以我说人性也是一个分形
        呵呵.
        你不妨说说何什么心理特征相关?(趋利避害?)
        -- 系统封号 --。偏要看
    - -- 系统封号 --。偏要看
      - 复还有chaos这一套全是西方分析体系里折腾出来的东西
        家园 中国的东西弊在语焉不详
        现今还没看到一些靠谱的解释,<易><老子>是常讲常新

分页树展主题 · 全看下页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明