博弈論經(jīng)典案例“囚徒困境”及其實(shí)證分析
作者:發(fā)布時間:2008-03-20
最近三四十年,經(jīng)濟(jì)學(xué)經(jīng)歷了一場“博弈論革命”,就是引入博弈論的概念和方法改造經(jīng)濟(jì)學(xué)的思維,推進(jìn)經(jīng)濟(jì)學(xué)的研究。諾貝爾經(jīng)濟(jì)學(xué)獎授予包括美國普林斯頓大學(xué)的納什博士在內(nèi)的3位博弈論專家,可以看作是一個標(biāo)志,這自然也激發(fā)了人們了解博弈論的熱情。博弈論作為現(xiàn)代經(jīng)濟(jì)學(xué)的前沿領(lǐng)域,已成為占據(jù)主流的基本分析工具。
博弈論是研究決策主體的行為發(fā)生直接相互作用時的決策以及這種決策的均衡,也就是說,當(dāng)一個主體的選擇受到其他主體選擇的影響,而且反過來影響到其他主體選擇時的決策問題和均衡問題。
一個完整的博弈應(yīng)當(dāng)包括五個方面的內(nèi)容:第一,博弈的參加者,即博弈過程中獨(dú)立決策、獨(dú)立承擔(dān)后果的個人和組織;第二,博弈信息,即博弈者所掌握的對選擇策略有幫助的情報資料;第三,博弈方可選擇的全部行為或策略的集合;第四,博弈的次序,即博弈參加者做出策略選擇的先后;第五,博弈方的收益,即各博弈方做出決策選擇后的所得和所失。
“囚徒困境”
“囚徒困境”是博弈論里最經(jīng)典的例子之一。講的是兩個嫌疑犯(A和B)作案后被警察抓住,隔離審訊;警方的政策是"坦白從寬,抗拒從嚴(yán)",如果兩人都坦白則各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據(jù)不足各判1年。
在這個例子里,博弈的參加者就是兩個嫌疑犯A和B,他們每個人都有兩個策略即坦白和不坦白,判刑的年數(shù)就是他們的支付。可能出現(xiàn)的四種情況:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的結(jié)果。A和B均坦白是這個博弈的納什均衡。這是因為,假定A選擇坦白的話,B最好是選擇坦白,因為B坦白判8年而抵賴卻要判十年;假定A選擇抵賴的話,B最好還是選擇坦白,因為B坦白判不被判刑而抵賴確要被判刑1年。即是說,不管A坦白或抵賴,B的最佳選擇都是坦白。反過來,同樣地,不管B是坦白還是抵賴,A的最佳選擇也是坦白。結(jié)果,兩個人都選擇了坦白,各判刑8年。在(坦白、坦白)這個組合中,A和B都不能通過單方面的改變行動增加自己的收益,于是誰也沒有動力游離這個組合,因此這個組合是納什均衡。
囚徒困境反映了個人理性和集體理性的矛盾。如果A和B都選擇抵賴,各判刑1年,顯然比都選擇坦白各判刑8年好得多。當(dāng)然,A和B可以在被警察抓到之前訂立一個"攻守同盟",但是這可能不會有用,因為它不構(gòu)成納什均衡,沒有人有積極性遵守這個協(xié)定。
實(shí)證分析:
"囚犯困境"在經(jīng)濟(jì)學(xué)上有很多應(yīng)用,也有力地解釋了一些經(jīng)濟(jì)現(xiàn)象。
一.電信價格競爭
根據(jù)我國電信業(yè)的實(shí)際情況,我們來構(gòu)造電信業(yè)價格戰(zhàn)的博弈模型。假設(shè)此博弈的參加者為電信運(yùn)營商A與B, 他們在電信某一領(lǐng)域展開競爭,一開始的價格都是P0。A(中國電信)是老牌企業(yè),實(shí)力雄厚,占據(jù)了絕大多數(shù)的市場份額;B(中國聯(lián)通)則剛剛成立不久,翅膀還沒有長硬,是政府為了打破壟斷鼓勵競爭而籌建起來的。
正因為B是政府扶植起來鼓勵競爭的,所以B得到了政府的一些優(yōu)惠,其中就有B的價格可以比P0低10%。這一舉動,還不會對A產(chǎn)生多大的影響,因為A的根基實(shí)在是太牢固了。在這樣的市場分配下,A、B可以達(dá)到平衡,但由于B在價格方面的優(yōu)勢,市場份額逐步壯大,到了一定程度,對A造成了影響。這時候,A該怎么做?不妨假定:
A降價而B維持,則A獲利15,B損失5,整體獲利10;
A維持且B也維持,則A獲利5,B獲利10,整體獲利15;
A維持而B降價,則A損失10,B獲利15,整體獲利5;
A降價且B也降價,則A損失5,B損失5,整體損失10。
從A角度看,顯然降價要比維持好,降價至少可以保證比B好,在概率均等的情況下,A降價的收益為15×50%-5×50%=5,維持的收益為5×50%-10×50%=-2.5,為了自身利益的最大化,A就不可避免地選擇了降價。從B角度看,效果也一樣,降價同樣比維持好,其降價收益為5,維持收益為2.5,它也同樣會選擇降價。在這輪博弈中,A、B都將降價作為策略,因此各損失5,整體損失10,整體收益是最差的。這就是此博弈最終所出現(xiàn)的納什均衡。我們構(gòu)造的這一電信業(yè)價格戰(zhàn)博弈模型是典型的囚徒困境現(xiàn)象,各個局部都尋求利益的最大化,而整體利益卻不是最優(yōu),甚至是最差。
許多其他行業(yè)的價格競爭都是典型的囚徒困境現(xiàn)象,如可口可樂公司和百事可樂公司之間的競爭、各大航空公司之間的價格競爭等等。
二.OPEC組織成員國之間的合作與背叛
“囚徒困境”告訴我們,個人理性和集體理性之間存在矛盾,基于個人理性的正確選擇會降低大家的福利,也就是說,基于個人利益最大化的前提下,帕累托改進(jìn)得不到進(jìn)行,帕累托最優(yōu)得不到實(shí)現(xiàn)。
上述我們在對電信價格競爭的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降價的納什均衡。而在現(xiàn)實(shí)生活當(dāng)中,信任與合作很少達(dá)到如此兩難的境地,無論在自然界還是在人類社會,“合作”都是一種隨處可見的現(xiàn)象。比如中東石油輸出國組織(Organization of Petroleum Exporting Countries簡稱OPEC)的成立,本身就是要限制各石油生產(chǎn)國的產(chǎn)量,以保持石油價格,以便獲取利潤,是合作的產(chǎn)物。OPEC之所以能夠成立,各組織成員國之間之所以能夠合作,是因為囚徒困境如果是一次性博弈(One shot game)的話,基于個人利益最大化,得到納什均衡解,但如果是多次博弈,人們就有了合作的可能性,囚徒困境就有可能破解,合作就有可能達(dá)成。連續(xù)的合作有可能成為重復(fù)的囚徒困境的均衡解,這也是博弈論上著名的“大眾定理”(Folk Theorem)的含義。
但合作的可能性不是必然性。博弈論的研究表明,要想使合作成為多次博弈的均衡解,博弈的一方(最好是實(shí)力更強(qiáng)的一方)必須主動通過可信的承諾(Credible commitment) ,向另一方表示合作的善意,努力把這個善意表達(dá)清楚,并傳達(dá)出去。如果該困境同時涉及多個對手,則要在博弈對手中形成聲譽(yù),并用心地維護(hù)這個聲譽(yù)。這里“可信的承諾”是一個很牽強(qiáng)的翻譯,“Credible commitment”并不是什么空口諾言,而是實(shí)實(shí)在在的付出。所以合作是非常困難的。 所以OPEC組織經(jīng)常會有成員國不遵守組織的協(xié)定,私自增加石油產(chǎn)量。每個成員國都這樣想,只要他們不增加產(chǎn)量,我增加一點(diǎn)點(diǎn)產(chǎn)量對價格沒什么影響,結(jié)果每個國家都增加產(chǎn)量,造成石油價格下跌,大家的利潤都受到損失。當(dāng)然,一些產(chǎn)量增加較少的國家損失更多,于是也更加大量生產(chǎn),造成價格進(jìn)一步下降--結(jié)果,陷入一個困境:大家都增加產(chǎn)量,價格下跌,大家再增加產(chǎn)量,價格再下跌……。
理論上,幾乎所有的卡特爾都會遭到失敗,原因就在于卡特爾的協(xié)定(類似囚犯的攻守同盟)不是一個納什均衡,沒有成員有興趣遵守。那么是不是不可能有卡特爾合作成功了?理論上,如果是無限期的合作,雙方考慮長遠(yuǎn)利益,他們的合作是會成功的。但只要是有限次的合作,合作就不會成功。比如合作10次,那么在第九次博弈參與人就會采取不合作態(tài)度,因為大家都想趁最后一次機(jī)會撈一把,反正以后我也不會跟你合作了。但是大家料到第九次會出現(xiàn)不合作,那么就很可能在第八次就采取不合作的態(tài)度。第八次不合作會使大家在第七次就不合作……一直到,從第一次開始大家都不會采取合作態(tài)度。
以上是運(yùn)用博弈論中的經(jīng)典案例“囚徒困境”對現(xiàn)實(shí)經(jīng)濟(jì)生活的一些簡單的理論上的分析,雖然在現(xiàn)實(shí)生活當(dāng)中影響人們決策和態(tài)度的因素很多,但是,博弈論作為現(xiàn)代經(jīng)濟(jì)學(xué)的前沿領(lǐng)域,始終是一個強(qiáng)有力的分析工具。