博弈论为什么以牙还牙(博弈论的以牙还牙)

文/老C

在美国关闭中国驻美休斯顿领事馆后,中方通知美方关闭成都领事馆。

在西方媒体对这个事情的报道中,基本都用了'tit-for-tat' 这个词语,这个词翻译成中文,就是以牙还牙。

在博弈论中,以牙还牙(tit-for-tat)是一种解决囚徒困境的有效应对策略。

在两个相互完全不信任个人之间的多次重复博弈中,以牙还牙是一个最有效的应对方法。

1、

囚徒困境(Prisoner's Dilemma)是博弈论中最具代表性的例子,对每个人来说的最佳选择,反而会带来群体的损失。

经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。若二人都互相检举(互相“背叛”),则二人同样判监5年。

用表格概述如下:


乙沉默(合作)

乙认罪(背叛)

甲沉默(合作)

二人同服刑半年

甲服刑10年;乙即时获释

甲认罪(背叛)

甲即时获释;乙服刑10年

二人同服刑5年

囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。

就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:

若对方沉默、我背叛会让我获释,所以会选择背叛。

若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。

这场博弈的纳什均衡,显然不是顾及团体利益的最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。

囚徒困境和博弈论,被广泛用于分析包括美苏军备竞赛,核威慑这样的现实政治问题。


2、

如果这种囚徒困境可以发生给定次数的多次博弈,结果并不会有什么改变。

概括而言囚徒困境进行第一次后会出现以下两种情况:

假设双方博弈十局。

在第十局中,因为甲乙双方都知道这是最后一局,之后不会被对方报复。双方的最佳选择都是在第十局指控对方,这将最终导致,二人同服刑5年。

如果双方都知道对方会在第十局中指控自己,这样,在第九局时都保持沉默,建立两者间的信任关系的建立即是没有意义的。第九局也应该指控对方。

如此类推,第八局到第一局中信任关系的建立也是没有意义的,即是所有的十局都会互相背叛,也就是纳什均衡。

如果局数是给定的,甲乙双方还是不会互相信任。所有的博弈都会互相背叛。

只有在囚徒困境的局数在不肯定的情况下(即双方均不知道进行的局数,这样就没有最后一局),才有可能出现互相保持沉默以获得信任关系的现象。


3 、

在重复的不肯定局数的囚徒困境中,什么样的策略是最好的?

美国政治学家罗伯特·阿克塞尔罗德(Robert Marshall Axelrod)在其著作《合作的进化》(The Evolution of Cooperation)中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。

在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。

最佳确定性策略被认为是“以牙还牙” (tit-for-tat) ,这是俄裔美籍数学心理学家阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。

这个策略是:在重复博弈的开头选择合作,然后,采取你的对手前一回合的策略。如果对手上一回合合作,你也选择合作。如果对手上一回合背叛,你95-99%的概率选择背叛,1%-5%的概率选择合作。小概率选择合作是考虑到偶尔要从循环背叛的受骗中复原。

通过分析高分策略,阿克塞尔罗德分析了策略获得成功的几个必要条件。

初期的友善:最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。永远不首先打击其对手。

坚决的报复:同时,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”的策略将残酷地剥削这样的傻瓜。

宽恕:成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。

不嫉妒:最后一个品质是不嫉妒,就是说不去试图争取得到高于对手的分数


4、

今天,中国在中美关系的策略,很接近以牙还牙的策略

中国对美国的策略是:

友善:中国的应对基本都是被动的。只要美国不挑事,中国绝对不找事。

坚决的报复:美国如果挑事,中国一定会以牙还牙的报复回去

宽恕:美国表达友善时,中国会马上回报友善。

在Covid-19疫情之前,我们能看到只要美国方面表达了一些友善的态度时,中国马上予以回报。媒体马上开始宣传中美友好。有人讽刺我们变脸变得太快。其实按博弈论的理论就应该这样,对方示好时我们应该马上回应。


即使美国始终对中国抱有敌意,从博弈论的角度,也应该时不时的表示一下合作的态度,尝试能否回到相互合作的轨道上。

目前我们对美国的应对,至少从纯理论的角度,是没什么问题的。以牙还牙对于已经完全没有信任的中美双方,不失为一个好策略。


5、

最后再说一句:有人说,美国最近的一再挑衅是特朗普的选举策略,是短期疯狂。


另外一批人说,这个是美国的大棋,是处心积虑一步步绞杀中国的第一步。

其实,两者都没错。

我对这个事情的判断是:

美国有一批所谓的鹰派”精英“,确实有着一步步绞杀中国的完整计划:

包括宣传上丑化,军事上包围,外交上孤立,经济上打击。并最终通过一场战争彻底消灭中国对美国的威胁。

这一批鹰派,包括博尔顿、纳瓦罗等人。这批人在美国一直存在。维持美国的霸权,消灭可能的竞争对手,这就是他们孜孜以求的。


朝鲜战争中,麦克阿瑟就打算往中国扔几十颗核弹,被杜鲁门阻止。

但是,包括特朗普在内的历任美国总统,都没这么疯狂。

按特朗普的话:”如果我听他(博尔顿)的话,我们现在将参加第六次世界大战。“

但是,特朗普现在需要连任。在反华是美国的政治正确的前提下,为了转移民众对他应对Covid-19疫情的不满,他需要一个替罪羊,需要转移话题。

这时,这批鹰派就利用特朗普的这种需求,来不断的挑衅中国,破坏中美关系,以达到他们自己内心与中国开战,通过战争一劳永逸的解决中国问题的目的。


在第一次世界大战前,无论是同盟国还是协约国,都希望用一场最终战争彻底解决问题。第一次世界大战被称为,结束所有战争的最终一战(The War to End All Wars)


想和中国打一场最终战争,有这个念头的美国鹰派不在少数。

特朗普需要通过打压中国拿选票,骂中国挑事儿,确实是他的选举策略,他并不想打仗,也不想和中国彻底撕破脸。

而美国的”鹰派精英“,也确实有盘大棋,希望把中美两国推向战争,用战争解决中国问题。

所以,就出现了如今的局面。