《合作的进化》的原文摘录

  • 令人惊讶的是:胜利者是所有提交策略中最简单的一个策略,它就是“一报还一报”。这个策略首先在第一步合作,然后就模仿对方上一步的选择。第二轮计算机竞赛有更多的参赛程序,它们是由一些业余爱好者和专家们提送的,他们都知道第一轮计算机竞赛的结果。然而,第二轮又是“一报还一报”取胜!对竞赛数据的分析揭示了一个成功的决策规则所应有的四个特征: 只要对方合作你就合作以避免不必要的冲突;面的他人的无理背叛你是可激怒的;在给挑衅以反击之后你是宽容的;行为要简单清晰,使对方能适应你的行为模式。 (查看原文)
    Ying 19赞 2013-07-07 21:43:11
    —— 引自章节:全书
  • 尽管事实上任何改善“一报还一报”的企图都没有奏效,单还是可以容易地找到这次竞赛的条件下能比“一报还一报”表现得更好的几个规则。这些规则的存在可以给轻信“以牙还牙”肯定是最好的策略的人一个警告。至少有三个规则如果参赛的话将赢得竞赛。 这个简单的程序只有在对方前两步连续背叛后才背叛。它是“一报还一报”的更加宽容的版本,它从不惩罚孤立的背叛。这个“两报还一报”(TIT FOR TWO TATS)规则的出色表现揭示了参赛者的一个共同错误,即预期相对于“一报还一报”更少点宽容能得到更多好处。然而,事实上,更多的宽容才能得到更多好处。这个惊人的发现表明,即使是战略专家也没有给宽容的重要性以足够的重视。 以上补充规则的分析结果支持了从分析参赛规则本身所得到的观点:即参赛者为了自己的利益太富于竞争性。首先,许多人在游戏中没有受到挑衅就早早地开始背叛,这个特点从长远看来是要付出大代价的。其次,任何参赛者所显示出来的宽容性比理想的要小得多(“唐宁"可能是例外)。第三,最与众不同的规则”唐宁“,由于对其他人的反应所作的初始假设太悲观而做了不少蠢事。 检验者是由戴维·格拉德斯坦提交的,在竞赛中名列46名。它被设计成专门欺负软骨头。但是一旦对方表示出不可欺负性,它就罢手。这个规则的不寻常之处是为了检验对方的反应,它在第一步就背叛,如果对方背叛,它就赶快抱歉,回之以合作,然后在其余步中采用”一报还一报“ 。如果对方步反应它的第一步背叛,它就在第二步和第三步合作,但是在而后的步中它就每隔一步背叛一次。“检验者”在那几个在第一轮竞赛中可能取胜的补充规则对局时占了不少便宜。......实际上如果它们像“一报还一报”及那些名列前茅的程序那样在第二步就立即用背叛反击“检验者”的话,它们的处境就会好很多。这可以使得“检验者”赶快抱歉,而后的情况就好多了。 (查看原文)
    Ying 19赞 2013-07-07 21:43:11
    —— 引自章节:全书
  • 一个“小人”的世界很容易被一小群“一报还一报”侵入。 合作可以在甚至绝对背叛的世界中出现。如果只由一些散乱的个体去努力,合作时步能建立的。因为他们没有机会彼此相遇。但是,只要有识别能力的个体之间有即使是很小的比例彼此相遇,合作就可以从这个小群体中出现。 在持续的重复囚徒困境中英如何表现,下面是四个简单的建议:1 不要嫉妒 2 不要首先背叛 3 对合作与背叛都要给予回报 4 不要耍小聪明 (查看原文)
    Ying 19赞 2013-07-07 21:43:11
    —— 引自章节:全书
  • 尽管一报还一报一直很成功,但它还不能称为重复囚徒困境的理想策略。首先,一报还一报以及其它善良策略要在未来影响足够大时才有效,但是即便这样,也没有能独立于其他人所采用的策略的理想策略。在一些极端的情况下,如在没有足够的其他人回报它的最初合作的情况下,即使是一报还一报也做得很差。一报还一报确实有它的弱点。比如,对方一旦背叛,一报还一报就以背叛回报,如果对方做出同样的反应,结果将是无止境的交替背叛。在这一点上,一报还一报是不够宽容的。但是,一报还一报对待那些完全不反应的规则,如纯随机规则,又太宽容了。然而在众多设计来取胜的复杂策略所组成的多样性环境中,一报还一报确实表现得很好。 (查看原文)
    Ying 19赞 2013-07-07 21:43:11
    —— 引自章节:全书
  • 人们之间的合作能够通过各种技巧来促进,它们包括:未来的影响;改变收益值;教育人们关心他人福利;教育人们要回报;改进辨别能力。 (查看原文)
    1thinc0 5赞 2012-08-12 23:50:34
    —— 引自第107页
  • “囚徒困境”博弈是一个双人博弈,每人可选合作(C)或背叛(D)。如果双方都合作,两人都得到奖励R,如果双方都背叛,两人都得到惩罚P。如果一人合作,另一人背叛,那么第一个人得到“笨蛋”的报酬S,而另一人得到诱惑的报酬T。这些报酬的顺序是T>R>P>S,并满足R>(T+S)/2。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 在第一章图1.1中的博弈矩阵给出了相应的数值。在“重复囚徒困境”中,每一步只值前一步的w,这里0<w<1。因此在重复博弈中,两人总是相互合作的累积报酬是R+wR+w2R…=R/(1-w)。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 一般地,策略A与策略B相遇的值(或得分)用V(A|B)来表示。如果V(A|B)>V(B|B)那么就可以说策略A可以侵入由策略B组成的群体。 ........................... 如果不存在能侵入策略B的策略,那么策略B就是集体稳定的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 命题1:如果折扣参数w足够大,不存在独立于其他人所采用的策略的最好策略。 命题2:“一报还一报”是集体稳定的,当且仅当w至少比(T-R)/(T-P)和(T-R)/(R-S)中较大者更大。 证明:首先这个命题等价于这样一个说法:即如果“一报还一报”(TFT)既不能被“总是背叛”(ALL D)侵入,也不能被交替使用背叛和合作的策略侵入的话,“一报还一报”就是集体稳定的。 命题3:任何可能首先合作的策略B,只有在w足够大时,才能是集体稳定的。 命题4:一个善良策略要成为集体稳定的,它必须能被对方的第一个背叛所激怒。 命题5:“总是背叛”的策略总是集体稳定的。 命题6:能以具有最小的p值的小群体侵入“总是背叛”的策略是那些具有最大区别力的策略,如“一报还一报”。 命题7:如果一个善良的策略不能被一个单一的个体侵入,它也就不能被这种个体的任何小群体侵入。 命题8:如果一个规则是集体稳定的,它也是领地稳定的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好,而且由于具有一定的数量使得它们能够大幅度相互提高它们的平均得分。只要对方不背叛,每个善良的规则一定是持续合作直到最后一步。如果有个背叛将会怎样呢?不同的规则的反应是很不一样的。而且它们的反应对于确定它们的最后成功是很重要的。一个重要的概念是决策规则的宽容性。一个规则的宽容性可以非正规地描述成它在对方背叛之后的合作倾向。 所有善良规则中,得分最低的就是最少宽容性的规则,它是“弗里德曼”(FRIEDMAN),一个采用永久报复的完全不宽容的规则。它决不首先背叛,但是一旦对方背叛(即使是一次),“弗里德曼”就从此一直背叛下去。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 在第二轮中,像“镇定者”和“检验者”这样的规则,有效地剥削了那些太好说话的规则。但是吸取教训二的人自己总体表现也不佳。原因是在试图占他人便宜时,他们经常受到足够的惩罚以致双方的最终得分比双方合作可能得到的少 ........................ 虽然吸取教训二的规则能伤害吸取教训一的规则,但是在竞赛中没有任何参赛程序能从企图剥削“好说话”的程序中得到比它所受到的损害更多的好处。一些成功的程序倾向于对“一报还一报”作一些小的改进,以识别并用总是背叛对付那些似乎随机的和非常不合作的家伙。但这些想法的实现并没有比原本的“一报还一报”表现得更好,因为“一报还一报”与大家都相处得很好。就像它赢得第一轮竞赛一样,它赢得了第二轮竞赛。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 不善良的规则在竞赛中表现不佳的主要原因之一就是,竞赛中的大部分规则都不是很宽容的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 这种类比的意义在于它可以模拟未来的竞赛,成功的参赛规则更有可能在下一轮中被采用,而不成功的规则很少再被采用。更准确地说,一个给定规则的拷贝(或称为后代)的数量与它的竞赛得分成正比。我们可以简单地把个体所得的平均收益比看成个体的后代的期望数之比。例如在第一轮竞赛中一个规则得分是另一个规则的两倍,那么,在下一轮中提交的这个规则就是另一个规则的两倍。因此,像“随机”程序在第二代中就显得不重要了,而“一报还一报”和其他名列前茅的规则就会多起来。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 生态分析表明,与那些本身得分并不佳的程序相遇时干得不错,这只不过是在经历一个自我毁灭的过程。非善良者在开头还显得挺有希望的,但是时间一长它就摧毁了它自己赖以成功的基础。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 一报还一报”的所有记录是令人难忘的。概括地说,在第二轮竞赛中,“一报还一报”是62个参赛者中平均得分最高的规则。在6次为了反应不同类型规则的影响而构造的假想竞赛中,它又获得5次最高分和1次第二名。最后,在竞赛的生态模拟中它一直保持领先 .................... “一报还一报”的成功可以说明的是,它是一个很具鲁棒性的规则:即它在很大范围的环境中表现极佳。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • “一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作,它的清晰性使它容易被对方理解,从而引出长期的合作。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 命题2:当且仅当w足够大时,“一报还一报”是集体稳定的。且w的临界值是四个收益参数T、R、P和S的函数。[4] ....................... 只有在未来的相互接触是足够重要的情况下,“一报还一报”才是集体稳定的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • [4]特别是,使“一报还一报”集体稳定的临界值是(T-R)/(T-P)和(T-R)/(R-S)中较大的一个。如第一章所述,当与“一报还一报”相遇时,“总是背叛”的得分为T+wP+w2P+w3P…=T+wP/(1-w)。当w≥(T-R)/(T-P)时,这一得分不比群体的平均分R(1-w)更高。同样,当与“一报还一报”相遇时,“背叛与合作交替”的得分将为T+wS+w2T+w3S…=(T+wS)(1+w2+w4…)=(T+wS)/(1-w2)。当w≥(T-R)/(R-S)时,这一得分不会比群体的平均得分R/(1-w)高。具体证明,参见附录B。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 但是一个善良的策略要是集体稳定的,就必须是可激怒的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
  • 命题7表明基于回报的合作一旦建立,即使有一小群不遵守这个参议员习俗的新来者,它也能保持稳定。并且这种回报模式建立后,命题2和命题3表明,只要两年一次的改选率不至于太大,它就是集体稳定的。 (查看原文)
    Moon Sea 3赞 2020-05-03 12:22:26
<前页 1 2 3 4 5 6 7 8 9 后页>