2024年10月5日 星期六

讀《21世紀諾貝爾經濟學獎》- 關於2005年諾貝爾經濟學獎《短期衝突走向長期雙贏的賽局》的延伸閱讀

在台灣颱風假期間,世界卻沒有因此而靜止:今年10月1日,以色列空襲敘利亞南部的真主黨大本營;10月2日,伊朗發射導彈攻擊以色列的軍事設施;10月3日,以色列則空襲了黎巴嫩首都貝魯特……中東似乎再次陷入新一輪的仇恨與衝突中。10月7日,年度的諾貝爾獎季節預計也將如期而至;回顧2005年10月10日,當年的諾貝爾經濟學獎頒給了兩位因賽局理論貢獻卓著的學者。其中一位得主是來自以色列的經濟學家羅伯特·奧曼(Robert Aumann),他在離開史丹佛大學回到以色列的希伯來大學後,曾受聘為以色列政府提供關於軍事和外交問題的諮詢。儘管他是賽局理論的權威,然而他的建議當時卻未被以色列政府所採納。

賽局理論的歷史可以追溯至20世紀初,並隨著時間的推移成為經濟學、政治學及其他領域的重要工具。1920年代,數學家埃米爾·博雷爾和馮·諾伊曼開始探討策略性決策問題,並在1930年代,馮·諾伊曼與經濟學家奧斯卡·摩根斯特恩共同撰寫了經典著作《賽局理論與經濟行為》(1944),這部作品奠定了現代賽局理論的基礎。1950年代,美國數學家約翰·奈許(John Nash)提出了「奈許均衡」的概念,這對非合作賽局至關重要。奈許均衡指出,當所有參與者在賽局中都選擇了對自己最佳的策略時,沒有人有動機單方面改變自己的選擇。這一理論在各領域獲得了廣泛應用,並使奈許於1994年獲得了諾貝爾經濟學獎。在1960至1980年代,賽局理論被廣泛應用於國際關係、軍事策略及經濟學領域。湯瑪斯·謝林(Thomas Schelling)在冷戰時期的核威懾研究,展示了賽局理論如何解釋衝突中的策略性互動。他的研究促進了賽局理論在社會科學中的進一步發展。同時,羅伯特·奧曼的重複賽局理論則擴展了合作理論,深入解釋了長期互動中的合作機制。

隨著計算機技術和數學方法的進步,賽局理論在金融市場、拍賣理論、政治競爭和環境政策等領域的應用日益廣泛。1990年代以來,機制設計(Mechanism Design)等新興領域更是成為賽局理論的重要分支,對網絡市場、電子競標和公共政策的設計產生了深遠的影響。

本文將回顧2005年兩位得獎者的精彩研究成果,並探討其對現代社會的重大影響。



本篇文章不僅供OT自我學習使用,也歡迎各位朋友轉載並註明原文網址。

Press Release


瑞典皇家科學院決定將2005年紀念阿爾弗雷德·諾貝爾的瑞典國家銀行經濟學獎共同頒發給

羅伯特·J·奧曼

以色列耶路撒冷希伯來大學理性中心

以及

湯瑪斯·謝林

美國馬里蘭大學經濟學系與公共政策學院,科利奇帕克


「表彰他們通過賽局理論分析,增強了我們對衝突與合作的理解。」


通過賽局理論視角解析衝突與合作

為何有些個人、組織和國家能夠成功促進合作,而另一些則陷入衝突?羅伯特·奧曼和湯瑪斯·謝林的研究確立了賽局理論,或稱互動決策理論,作為解答這一古老問題的主導方法。


湯瑪斯·謝林

在1950年代末的核軍備競賽背景下,湯瑪斯·謝林的著作《衝突的策略》提出了他將賽局理論作為社會科學統一框架的願景。謝林展示了,一方可以通過明顯削弱自己的選擇來加強其立場,反擊的能力比抵禦攻擊的能力更有用,且不確定的反擊比確定的反擊更具可信度和效率。這些見解對於衝突解決和避免戰爭的努力具有極大的相關性。

謝林的研究促使了賽局理論的新發展,並加速了其在社會科學中的應用。尤其是,他對策略性承諾的分析解釋了廣泛的現象,從企業的競爭策略到政治決策權力的委派。


羅伯特·奧曼

在許多現實世界的情況下,合作在長期關係中比在單次互動中更容易維持。因此,對短期賽局的分析往往過於局限。羅伯特·奧曼是第一位對所謂的無限重複賽局進行全面正式分析的學者。他的研究精確指出了在長期關係中可以持續的結果。

重複賽局理論增強了我們對合作前提條件的理解:為何當參與者較多、互動不頻繁、互動可能中斷、時間範圍較短或他人的行為無法清楚觀察時,合作更難以維持。對這些問題的洞察有助於解釋經濟衝突,例如價格戰和貿易戰,以及為何某些社群在管理公共資源上比其他社群更成功。重複賽局的方法闡明了許多機構的存在理由,從商會和有組織的犯罪到工資談判和國際貿易協議。



Popular Information


羅伯特·奧曼(Robert Aumann)和湯瑪斯·謝林(Thomas Schelling)在增進我們對衝突與合作的理解方面做出了重大貢獻。他們通過擴展和應用賽局理論——一種用來分析不同行為者之間策略性互動的方法,實現了這一點。他們的研究不僅改變了經濟學,也對社會科學的其他領域產生了深遠的影響。奧曼和謝林的研究至今仍在影響著關於社會機構形成的討論。


從賽局理論角度看衝突與合作

在人類互動中,單一個體很少能決定最終結果;每個人都能在某種程度上影響結果。例如,若雙方有兩個選擇,其中一方可以選擇兩條行動路線,而另一方有三個選項,則總共有2 x 3 = 6種可能的結果。雙方通常對這些結果有不同的評價,並基於對方可能選擇的選項進行決策。許多互動涉及多個步驟,並且經常伴隨不對稱資訊,即某些人知道其他人不知道的資訊。對各類策略性互動的分析是賽局理論的本質。這個術語讓人聯想到日常生活中的「遊戲」,但正如今年的諾貝爾獎得主所示,賽局理論最重要的應用體現在安全與裁軍政策、市場價格形成以及經濟和政治談判等重大議題上。


冷戰陰影下的談判

在1950年代中期,湯瑪斯·謝林開始將賽局理論方法應用於當時最重要的議題之一——全球安全與軍備競賽。正如謝林本人所指出的,僅僅繪製一張圖表,描述對手和自己國家可選擇的替代方案,並系統地考慮不同情況下的結果,就能取得相當大的進展。這樣的過程也提醒我們,衝突中的另一方同樣面臨著類似的決策問題。

謝林特別關注不同因素如何影響各方的談判實力,例如各方最初的選擇和在過程中影響自己及對方選項的潛力。他闡明了為何限制自己的選項或使自己的選擇變得更糟——即「破釜沉舟」——可能是有利的。他還對建立信任氛圍的過程感興趣,即如何在一段時間內建立長期合作,以及一方通過做出短期讓步來實現長期利益。謝林的研究成果在其著作《衝突的策略》(1960年)中發表,這本書成為經典,並影響了幾代戰略思想家。

其他研究者進一步拓展了謝林書中的幾個概念。他關於可信威脅和自我選項限制的觀點,後來由1994年經濟學諾貝爾獎得主萊因哈德·塞爾滕(Reinhard Selten)進行了形式化。謝林對合作前提的闡述引發了廣泛的研究,探討在彼此最初缺乏信任的情況下,各方如何隨著時間的推移建立並發展合作。

謝林還關注當事人如何在沒有明顯利益衝突的情況下協調行為,但若協調失敗,將導致各方承受高昂的代價。在他的研究中,包括與學生進行的課堂實驗,謝林發現協調性解決方案——他稱之為「焦點點」(focal points)——比理論預測的更容易達成。協調的能力似乎與各方共享的參考框架有關。社會習俗和規範是這種共識的重要組成部分。謝林在這一領域的研究啟發了哲學家大衛·路易斯(David Lewis),其進一步闡述了語言作為協調手段的起源。


為何會出現隔離現象?

湯瑪斯·謝林的研究中反覆出現的一個主題是:當個人的計劃和行為模式在社會舞台上相遇時,會發生什麼?他最受歡迎的書之一《微動機與宏行為》(1978年)揭示了這一整體主題。書中探討了各種日常現象,例如職業冰球運動員使用頭盔、觀眾選擇座位的位置以及種族和性別歧視。

隔離通常與壓迫有關,這在歷史上是重要的解釋因素,但隔離在發達社會中仍然是一個穩定的現象,儘管為反對它付出了巨大努力。謝林提出了一個簡單的模型,假設所有個體在某種程度上都是包容的,即他們願意與不同文化、宗教或膚色的人住在一起,但他們希望至少有一些鄰居與自己有相似的特徵。如果這些條件不滿足,他們就會搬遷到一個能找到更多與自己相似的人居住的社區。謝林展示了,即使對於「相似者比例」的較弱偏好,也能導致高度隔離的居住模式。換句話說,並不需要極端的個人偏好,一個社會問題就可能產生。


長期合作

湯瑪斯·謝林的優勢在於他能以最少的數學技巧引入原創的想法和概念,而羅伯特·奧曼的主要貢獻則是運用數學分析工具,發展概念與假設,並給出精確的結論。他曾將自己的研究比喻為「在困難或抗拒的媒介中進行表達」,類似於藝術創作。

奧曼與謝林一樣,早期便對長期多次互動的重複賽局產生了興趣。他展示了,即使雙方在短期內存在嚴重的利益衝突,和平合作仍然常常是重複賽局中的均衡解決方案。奧曼和其他研究者在不同方向上擴展和推廣了他的結果,例如在處罰威脅的可信性方面。奧曼與麥克·馬什勒(Michael Maschler)合作,還建立了不對稱(或更廣泛地說,資訊不完全)資訊下的重複賽局理論,即在一方對某些方面的資訊知之甚少的情況下,如何進行互動,例如對競爭對手的真實成本或另一國家的軍事實力不完全了解的情況。

重複賽局理論現在是分析社會科學中長期合作的常用框架。其應用範圍從合謀維持高價位的競爭企業,分享牧場或灌溉系統的農民,到簽訂環境協議或捲入領土爭端的國家。


共同知識與相關均衡

奧曼的另一項基本貢獻涉及賽局理論的認知基礎,即各方對賽局中不同方面的知識(包括「對彼此知識的了解」)的影響。在賽局理論的早期分析中,通常簡化地假設各方對賽局的所有方面一無所知,類似於物理學中忽略摩擦或空氣阻力的做法。對方是理性的這一認知會影響自己的行為,對方對自己理性的認知也會產生影響,依此類推。奧曼對共同知識概念的形式化,允許系統地分析各方知識與賽局結果之間的關係。

奧曼還引入了一個新的均衡概念,即相關均衡(correlated equilibrium),這比由1994年經濟學諾貝爾獎得主約翰·奈許(John Nash)提出的奈許均衡更弱。相關均衡可以解釋為何談判雙方允許公正的中立者與雙方共同或分別交談,在某些情況下,中立者甚至向雙方提供不同的資訊可能更有利。


理性邊界

作為學者,羅伯特·奧曼和湯瑪斯·謝林各有鮮明的特徵,但他們在研究中始終共享一個共同點:對現有理論忽視的方面產生興趣,並發展新的概念與分析工具,從而拓展分析範圍。這些努力的結果之一是,理性的概念如今有了更廣泛的解釋;過去被認為是非理性的行為,如今變得可理解且具有理性。他們的研究大大促進了經濟學與其他行為和社會科學之間的橋樑建設。



Robert Aumann’s and Thomas Schelling’s Contributions to Game Theory: Analyses of Conflict and Cooperation 


1. 引言

戰爭和其他衝突是人類苦難的主要來源之一。合作的最低限度是繁榮社會的先決條件。正如湯瑪斯·霍布斯(Thomas Hobbes)在1651年所著名的短語中所說,在無政府狀態下的「自然狀態」中,每個人都在與他人鬥爭,這樣的生活是「孤獨的、貧困的、骯髒的、殘暴的,且短暫的」。社會科學家長期以來試圖理解衝突與合作的根本原因。20世紀中期賽局理論的出現帶來了重大新見解,使得研究人員能夠用數學的嚴謹性來分析這一課題。賽局理論的基礎是在1944年由約翰·馮·諾伊曼(John von Neumann)和奧斯卡·摩根斯特恩(Oscar Morgenstern)所著的經典著作《賽局理論與經濟行為》中提出的。1994年經濟學獎得主約翰·哈薩尼(John Harsanyi)、約翰·奈許(John Nash)和萊因哈德·塞爾滕(Reinhard Selten)進一步擴展了解決概念和見解,大大增強了非合作賽局理論的實用性和預測能力。最核心的解決概念是奈許均衡。當每個玩家的策略在對抗其他玩家的策略時都是最優時,這個策略組合(每個玩家的一個策略)就構成了一個奈許均衡。哈薩尼表明,這一解決方案可以推廣到不完全信息的賽局(即玩家不知道彼此的偏好)。塞爾滕則展示了如何將其應用於動態賽局和玩家以(無限小的)小概率犯錯的賽局。

然而,這些研究者的巨大智力成就如果沒有應用於解決關於社會的重要問題,將無法發揮太大的作用。羅伯特·J·奧曼(Robert J. Aumann)和湯瑪斯·謝林(Thomas C. Schelling)兩位研究者的工作在進一步發展非合作賽局理論並將其應用於社會科學的重大問題上發揮了關鍵作用。奧曼從數學出發,而謝林則從經濟學角度切入,他們都認識到賽局理論的視角具有重新塑造人類互動分析的潛力。也許最重要的是,謝林展示了許多常見的社會互動可以被視為既有共同利益又有衝突利益的非合作賽局,而奧曼則證明了可以用形式化的非合作賽局理論全面分析長期的社會互動。

儘管他們關於衝突與合作的著作在1950年代末期問世時受到了好評,但奧曼和謝林的遠見卓識需要很長時間才能完全實現。這一延遲反映了他們貢獻的原創性以及隨後發展步驟的艱難程度。最終,尤其是過去25年來,賽局理論已經成為經濟學和許多其他社會科學領域普遍接受的工具和語言。當前關於衝突與合作的經濟分析幾乎完全建立在奧曼和謝林奠定的基礎上。


2. 謝林

湯瑪斯·謝林的著作《衝突的策略》(The Strategy of Conflict, 1960)開啟了他將賽局理論視為統一社會科學框架的願景。他轉移了人們對零和賽局的關注,像是象棋這類玩家之間利益完全對立的遊戲,並強調幾乎所有多人決策問題都包含衝突與共同利益的混合。他指出,這兩者之間的相互作用可以通過非合作賽局理論來有效地分析。奈許(1950年、1951年)已經奠定了這一基礎,證明了在所有有限純策略賽局中存在奈許均衡。謝林則承擔了推導有趣賽局類別的均衡的補充任務,並評估這些賽局及其均衡是否對實際經濟與社會互動具有啟發性。他在世界第一次核軍備競賽的背景下進行了這些研究,並對我們理解其影響作出了巨大貢獻。


2.1. 衝突、承諾與協調

謝林(Schelling)的第一個重大貢獻是他對雙邊談判情境中的行為分析,最早發表於1956年(Schelling, 1956)的一篇文章中,後來作為《衝突的策略》(Schelling, 1960)第二章重印。這裡,談判被廣義地解釋:除了兩國之間或買賣雙方之間的明確談判外,當兩輛載滿炸藥的卡車在僅能容納一輛車的道路上相遇時,也是一種「談判」情境,這是謝林常用的生動例子之一。談判總是伴隨著某種程度的利益衝突,因為每一方通常都會尋求盡可能有利的協議。然而,任何協議對雙方來說都比沒有協議要好。每個玩家必須在追求更大的「餡餅份額」與確保達成協議之間取得平衡。

在謝林撰寫這篇文章時,經濟學家對談判的研究通常採取合作或規範性方法,提出如「什麼是公平的結果?」這樣的問題。奈許是個例外,他以合作(Nash 1950b)和非合作(Nash, 1953)方法對談判進行了建模。雖然奈許的表述使得數學分析更加優雅,但其抽象化忽略了許多現實的談判策略。謝林則深入探討玩家可以用來偏向自己有利結果的談判策略,特別強調透過惡化自己的選項來獲得對方讓步可能是有利的。一名將軍可以在其部隊身後燒毀橋梁,以此作為對敵方不撤退的可信承諾。同樣,公司所有者可以任命一位談判權限有限的經理,從而獲得更多利益,政治家也可能通過公開承諾來獲得利益,這樣的承諾一旦被打破將會令人尷尬。

這些策略之所以奏效,是因為承諾不可逆,或者只有在極高成本下才能撤銷,而那些容易逆轉的承諾將無法獲得對方的重大讓步。然而,如果雙方都做出了不可逆且不相容的承諾,則可能導致有害的分歧。

讓我們通過一個簡化的範例來說明一些關鍵問題。假設兩個國家對一片領土的所有權存在分歧。每個國家可以選擇動員軍隊或避免動員。如果雙方都動員,發生戰爭的可能性很高,而和平分割領土的可能性則很低。假設雙方動員的預期收益為零。如果兩國都避免動員,則和平協商分配領土的可能性很大,而發生戰爭的可能性很小。在這種情況下,每個國家都能獲得一個正的預期收益 b。然而,如果只有一國動員,則該國可以在不發生戰爭的情況下完全控制該片領土,並且無論是對方國家還是其他任何勢力都無法迫使其軍事撤退。侵略國將獲得收益 a,而失敗國的收益為 c,其中 a > b > c > 0,因此戰爭是最糟糕的結果。這個簡單的「動員博弈」可以通過以下的收益雙矩陣來描述,其中一個玩家(此處為國家)選擇行,另一個同時選擇列,行玩家的收益列於每個條目的首位:

Table 1.

這類博弈屬於所謂的「懦夫博弈」(Chicken),有時也稱為「鷹鴿博弈」(Hawk-Dove)。這種博弈有三個奈許均衡:兩個純策略均衡和一個混合策略均衡。純策略均衡意味著只有一個國家動員軍隊;如果一個國家預期另一方會動員,那麼最優選擇就是避免動員。混合策略均衡意味著每個國家隨機選擇是否動員,從而存在一定的戰爭概率。當雙方有某種手段協調彼此的行為時,純策略均衡顯得更加合理。舉例來說,即使是博弈中很小的收益不對稱,也足以讓玩家預期收益最多的一方動員,從而使該均衡成為「突顯點」或「焦點」。根據謝林的觀點,人類在許多情境中很可能具備這種協調能力,而單純的形式分析則可能無法捕捉到博弈中突顯性或焦點性的原則。

缺乏共同理解的協調原則時,混合策略均衡似乎更為合理。此時,每個國家對對方的行動不確定,並將某種概率分配給對方動員的可能性。奈許均衡中的動員概率由以下公式確定,這使得每個國家在是否動員之間保持無差異。

另一類有趣的社會決策問題是參與者彼此互不信任的互動。例如,兩位將軍可能都同意戰爭是不受歡迎的,因此只要他們都認為對方也在為和平做準備,他們就會為和平做準備。然而,如果其中一位將軍懷疑另一位將軍正在為戰爭做準備,那麼他最好的回應可能也是為戰爭做準備——當戰爭比被佔領還要好時。正如謝林(Schelling,1966,第261頁)指出,這個想法早在公元前四世紀的色諾芬(Xenophon)就已經明確表述過。這一觀點的更近期版本來自沃爾斯泰特(Wohlstetter,1959),他進一步啟發了謝林。這一分析由謝林(1960年,第九章)推進,他以賽局理論的術語表述,並明確考慮了不確定性在引發侵略中的角色。為了說明戰爭僅由於相互不信任而爆發的可能性,考慮下列收益雙矩陣(每個條目中的第一個數字是行玩家的收益):

Table 2.

每個玩家都可以選擇發動戰爭或保持和平。兩個純策略奈許均衡是(戰爭,戰爭)和(和平,和平)。如果玩家是理性的,完美地執行他們的計劃,並且對對方的收益沒有不確定性,謝林(Schelling,1960,第210頁)認為和平將是這種博弈最合理的結果(這一觀點並非所有賽局理論家都認同)。然而,謝林(Schelling,1960,第207頁)也主張,對對方意圖的一點點緊張情緒就可能足夠傳染,從而使和平均衡崩潰:「如果我晚上拿著槍下樓調查聲音,卻面對一個手持槍支的小偷,那麼有可能出現我們都不希望的結果。即便他更願意安靜地離開,我也希望他這麼做,但問題是他可能認為我想開槍,從而先發制人。更糟的是,他可能認為我認為他想開槍。」謝林確實嘗試過對這個突然襲擊困境進行形式化分析,但由於當時的賽局理論缺乏適當的框架來研究不完全信息的賽局,因此可以說他的建模並沒有完全展現其直覺的全部內涵。

《衝突的策略》對經濟學界以及其他社會科學領域產生了持久的影響。它啟發了對歷史危機情境中的談判進行詳細分析(例如參見Snyder and Diesing,1977)。該書及其續集《戰略與軍備控制》(1961年,與摩頓·哈爾佩林共同撰寫)和《軍備與影響力》(1966年),也對冷戰時期的軍事理論家和實踐者產生了深遠的影響,並在確立「戰略研究」作為一個學術研究領域方面發揮了重要作用,可能也顯著促進了超級大國之間的威懾與裁軍。


2.2. 其他貢獻

自《衝突的策略》於45年前出版以來,湯瑪斯·謝林持續提出一系列新穎且有用的觀點。我們在此簡要提及其中的兩點。在1971年一篇被廣泛引用的文章中,謝林分析了種族混合的社會和社區如何會突然變得隔離,當某一種族的比例逐漸低於一個臨界水平時,一個輕微的偏好——不願意成為自己社區的少數群體,並不一定是偏愛自己種族的主導地位——就能使得微小的衝擊在宏觀層面上引發劇烈後果。除了對一個重要的社會政策問題提供了令人信服的解釋,謝林還對「臨界點」現象進行了早期分析——即在涉及大量個體的社會情境中,從一個均衡迅速轉向另一個均衡的過程。這一臨界點現象在謝林1978年另一部具影響力的著作《微動機與宏行為》中被進一步探討,並且後來也被其他社會科學家進行了進一步分析。

另一個重要的觀點集則體現在一系列關於自我控制的文章中,特別是在1980年、1983年、1984年和1992年的文章中。謝林觀察到,我們經常做一些自己希望不要做的事情,例如抽煙、飲酒過量,或者運動不足、儲蓄不足。他還探討了自我管理的局限性以及由此對公共政策帶來的挑戰。有趣的是,這種個人內部衝突中的可信承諾的重要性並不亞於謝林職業生涯早期所關注的人際衝突。在過去十年中,隨著行為經濟學的興起,有限自我控制的問題引起了廣泛關注。如今,許多經濟學領域的領導期刊上都發表了有關拖延、儲蓄不足和不健康消費的論文。

總結來說,這位「迷途的經濟學家」(正如謝林稱自己)最終成為了一位卓越的開路先鋒。


3. 奧曼

羅伯特·奧曼在塑造賽局理論方面扮演了至關重要的角色。他推動了一種統一的觀點來看待廣泛的策略性互動領域,涵蓋了許多看似不相關的學科,如經濟學、政治學、生物學、哲學、計算機科學和統計學。奧曼沒有使用不同的結構來處理各種具體問題——如威懾、完全競爭、寡頭壟斷、稅收和投票——而是發展了一般方法,並研究這些方法在每個具體應用中的運行情況。他的研究特色在於結合了廣度與深度的獨特方式。一些貢獻涉及深入的分析,而另一些則在技術上簡單但概念上深刻。他的基礎性研究既澄清了賽局理論推理的內在邏輯,也擴展了賽局理論的應用範圍。


3.1. 長期合作

在奧曼的諸多貢獻中,對長期合作的研究無疑對社會科學產生了最深遠的影響。如前所述,許多互動本質上是長期的,有時甚至是無限期的。國家經常有機會以鄰國為代價獲得某些優勢。競爭中的公司可能每天或每月進行生產和定價決策,部分依據競爭對手的過去行為而決定。農民可能會聯合起來共同管理某些公共資源,例如牧場或水源等。因此,研究具有長期視野的反覆互動至關重要。

短期互動與長期互動的區別或許可以通過著名的「囚犯困境」遊戲來最清楚地說明。這是一個雙人遊戲,每個玩家有兩個純策略可選:合作(C)或背叛(D)。玩家同時選擇他們的策略。每個玩家的優勢策略是D——也就是說,不論對方選擇什麼,D都是最優策略——但如果雙方都選擇C,則雙方的收益都會增加。如果這個遊戲只玩一次,唯一的奈許均衡是雙方都選擇「背叛」。然而,這樣的均衡結果對雙方來說都比雙方都選擇「合作」的策略對應的結果要差。下面是一個收益雙矩陣的例子,如前所述,每個條目中的第一個數字是行玩家的收益,第二個數字是列玩家的收益。

Table 3.

假設這兩個玩家每天都會見面,並不斷地重複進行囚犯困境遊戲,他們的目標是最大化未來無限次博弈中的平均每日收益。在這種情況下,可以證明,在每一輪中選擇合作是均衡結果。原因在於,玩家可以威脅懲罰任何當前背離合作的行為,通過拒絕未來的合作來進行懲罰。也就是說,今天背叛所帶來的短期收益會被未來合作減少所超過。

事實上,奧曼(1959)證明了一個更為普遍的結果,涉及任何「超博弈」(supergame)G*,該超博弈由某個給定博弈 G 的無限次重複構成。他基本上證明,任何在超博弈中可行且不違反「階段博弈」G 中個體理性(見下文)的平均收益,都可以作為 G* 中的奈許均衡結果被維持。此外,他還證明,即使要求對玩家聯盟的共同偏離進行穩健性處理,這一結果依然成立。

讓我們更準確地陳述這一結果。G* 中的純策略是一個決策規則,為每一個時間段分配 G 中的純策略,且該決策規則考慮到每個時間段之前的所有遊戲歷史。因此,G* 中的純策略集是無限的,並包含非常複雜的策略。這篇論文的主要結果精確地說明了 G* 的強均衡收益集。強均衡是奧曼(1959)提出的一個解決概念,它是一個策略組合,使得沒有任何玩家群體(子集或聯盟)可以通過改變其自身的策略來使群體中的所有成員獲得更高的收益。因此,奈許均衡只是強均衡的一個特例,其中偏離的群體總是由一名玩家組成。奧曼證明,強均衡收益集與所重複博弈 G 的所謂 β-核(β-core)一致。β-核是核心的一個變體,基本要求是沒有任何玩家群體可以保證自己獲得更高的收益——即使其他玩家「聯合起來」反對他們。

當奧曼的結果應用於只有一個玩家的偏離群體時,該結果就是重複博弈的「無名氏定理」(Folk Theorem)。根據這一定理,無限重複博弈 G* 的奈許均衡收益集與可行且個體理性的收益集一致。一個收益向量——即每個玩家的一組收益——是可行的,如果它是通過 G 中純策略所能獲得的收益向量的凸組合。一個玩家的收益水準對於他來說是個體理性的,如果它不低於其他玩家可以「強迫」該玩家降到的最低收益。該論點的核心是提供 G* 中的策略,這些策略構成了對偏離 G* 中實現給定收益向量的策略的「威脅」。

在此討論的囚犯困境中,可行且個體理性的收益對集包括了所有可以作為表3中的收益對的凸組合,且沒有任何收益低於1。首先要注意的是,每個玩家都可以通過選擇 D 保證自己至少獲得1的收益。其次,四個純策略對的結果為收益對(2, 2)、(1, 1)、(3, 0)和(0, 3)。因此,可行的收益對集是以這些收益對為頂點的多面體。下面圖1中陰影部分是這兩個集合的交集。所有這些收益對,且僅此收益對,可以作為該博弈無限次重複博弈中奈許均衡的時間平均收益。

Figure 1.

應用於表1中的博弈,「無名氏定理」(Folk Theorem)主張,所有收益對的凸組合(0, 0)、(a, c)、(c, a) 和 (b, b),且沒有任何收益低於 c 的情況下,這些收益對可以作為該博弈無限重複博弈中的奈許均衡時間平均收益被實現。特別是,「良好」結果 (b, b) 是可持續的——儘管當該博弈只進行一次時,它並不是一個均衡。偏離預定策略的行為可以通過「最小化」偏離者的方式來威脅,也就是說,另一名玩家在兩個純策略之間隨機選擇,以最小化偏離者的期望收益,而偏離者則選擇對此「懲罰」的最佳回應。這種懲罰也可以使其他結果成為無限重複博弈中的均衡,例如按照某種預定模式交替進行 C 和 D 的策略。在更複雜的博弈中,這種懲罰可以暫時將玩家的收益強制壓到階段博弈 G 中所有奈許均衡收益水平以下。例如,在重複數量競爭(庫諾競爭)中,公司可以通過暫時「充斥」市場來懲罰偏離合謀行為(如隱性卡特爾協議來限制產量),從而將利潤壓至零。

在1950年代,幾位賽局理論家推測,理性的玩家應該能夠合作——例如在上述的囚犯困境中選擇 C——如果遊戲能夠繼續足夠長的時間(見 Luce 和 Raiffa, 1957 的第5.5節)。正是這種民間傳說的特質,使得這一結果被稱為「無名氏定理」。如上所述,謝林(1956)確信這種民間智慧並認為它具有實證意義。然而,奧曼的精確且通用的表述和證明,為隨後對重複互動的分析奠定了基礎。隨後,弗里德曼(Friedman, 1971)建立了一個有用但部分的重複博弈結果:如果玩家對未來收益的折扣程度足夠小,那麼所有玩家所獲得的收益高於在基礎階段博弈 G 中純策略奈許均衡所獲得的收益,這些結果可以在無限重複博弈中作為均衡被實現。

在冷戰期間,1965年至1968年間,羅伯特·奧曼(Robert Aumann)、麥可·馬施勒(Michael Maschler)和理查·史坦斯(Richard Stearns)合作研究了軍備控制談判的動態。他們的研究成為了不完全資訊重複賽局理論的基礎,即在重複賽局中,部分或所有玩家並不知道當前所玩的是哪一階段賽局,詳見奧曼和馬施勒(1966, 1967, 1968)、史坦斯(1967)以及奧曼、馬施勒和史坦斯(1968)。例如,一家公司可能不知道競爭對手的成本,或一個國家可能不知道另一國的軍備數量,甚至不知道對方對各種協議的偏好順序。這一延伸引入了另一個策略元素:隱藏或揭露私人資訊給其他玩家的動機。一個人、公司或國家如果擁有額外的資訊,應該如何利用這個優勢?無知的玩家又應該如何通過觀察對方過去的行為來推斷對方已知的資訊?擁有資訊的玩家應該利用這些資訊以獲得短期收益,還是隱藏資訊以在未來獲得更多?基於約翰·哈薩尼(John Harsanyi)的工作,奧曼、馬施勒和史坦斯將賽局理論應用於這些微妙的策略問題。他們的工作被收錄並評論於奧曼和馬施勒(1995)。

奧曼和夏普利(1976)以及魯賓斯坦(1976, 1979)進一步完善了完整資訊下重複賽局的分析,展示了所有可行且符合個人理性的結果也可以作為次賽局完美納許均衡(奈許均衡)的結果。在無限重複賽局的背景下,次賽局完美本質上要求玩家在偏離均衡路徑後,仍有動機遵守均衡策略。特別是,次賽局完美要求玩家不會有動機偏離懲罰偏離者的策略,也不會偏離懲罰懲罰者的策略等等。許多奈許均衡並不是次賽局完美的,因此這種看似嚴格的精化是否會保留整個超博弈的奈許均衡支付集合,並不明確。然而,奧曼和夏普利展示了,如果玩家對未來收益進行折扣,並努力最大化當前預期收益流的現值,那麼次賽局完美均衡結果的集合可能會顯著小於奈許均衡結果的集合。因為奈許均衡準則並不依賴於「懲罰」偏離者的「成本」,而次賽局完美準則則依賴於此。然而,他們的廣義無名氏定理證明了,如果沒有折扣,次賽局完美和奈許均衡之間的區別將消失。

在過去的四十年裡,重複賽局理論蓬勃發展,我們對持續關係中的合作條件有了更深入的理解。隨著阿布雷(Abreu, 1988)對最佳懲罰的描述,找到可持續的均衡支付集合變得更加容易。福登伯格和馬斯金(1986)為有折扣的無限重複賽局中的次賽局完美均衡建立了無名氏定理,而奧曼和索林(1989)則表明,玩家的有限回憶可以將均衡範圍縮小到那些具有社會效率的均衡,而阿布雷、杜塔和史密斯(1994)則基本定義了無限重複和折扣賽局中無名氏定理適用的博弈類別。

一個次賽局完美均衡範例是在無限重複的有折扣賽局中,多家邊際成本恆定、無固定成本的公司進行動態價格競爭。每家公司在每個時期公佈價格,消費者只會從價格最低的公司購買,需求均分給這些公司。如果這種互動只發生一次,市場價格將與完全競爭下的結果相同,即 p = c。然而,當這種互動在未來無限持續,且利潤以固定比率進行折扣時,許多其他均衡結果在折扣不太嚴重的情況下是可能的。例如,所有公司可能從設定壟斷價格開始,並在發現價格偏離後,將價格設為競爭價格 p = c。這樣的策略組合構成了次賽局完美均衡,當且僅當 σ ≥ 1 - 1/n,其中 σ 屬於 (0, 1) 是折扣因子——即每期未來利潤折扣的比率。競爭者越多,對折扣因子的要求就越嚴苛——因此維持合謀就越困難。

其他文獻則探討了在玩家不耐煩且只能獲得過去行為噪音信號的情況下,長期合作的可能性;早期的主要貢獻包括格林和波特(Green and Porter, 1984)以及阿布雷、皮爾斯和斯塔凱蒂(Abreu, Pearce and Stacchetti, 1990)。更多近期相關的貢獻涉及長壽玩家以及不完全的公共和私人監控。還有一部分文獻討論了有限次重複博弈中的合作問題,也就是當階段博弈 G 重複有限次時。例如,Benoit 和 Krishna(1985)在有限但足夠長的時間範圍內,為多個奈許均衡的重複博弈建立了類似無名氏定理的結果,而Kreps、Milgrom、Roberts和Wilson(1982)則展示,如果囚犯困境被重複足夠多次,僅需少量的關於支付的資訊不完全性,即可在大多數時間內維持合作,儘管衝突將在最後幾回合爆發。Neyman(1999)展示,即使在完全資訊的情況下,如果時間範圍並非眾所周知,有限次重複囚犯困境中仍可能存在合作(下文將簡要討論博弈中的常識問題)。另一個對重複賽局文獻的重要貢獻來自Axelrod(1984),其實驗錦標賽表明,簡單的策略如「以牙還牙」在有限理性玩家的群體中表現良好。

所有這些後續的見解都得益於奧曼的創新和基礎性研究。當研究部分利益衝突的代理人之間的合作時,無論這些代理人是資本主義市場中的公司(如許多早期應用的例子)還是共享牧場或灌溉系統的農民(如 Ostrom, 1990 所述),重複賽局理論現在已經成為基準範式。

重複賽局理論幫助解釋了廣泛的實證發現,特別是為什麼在某些情況下合作更難以維持,例如當參與者較多、互動頻率較低、由於外部原因互動很可能會終止、時間範圍較短或其他人的行為是在延遲後觀察到時。價格戰、貿易戰以及其他經濟和社會衝突通常可以歸因於其中一個或多個因素。重複賽局框架還揭示了多種制度的存在及其運作機制,從商人行會(Greif, Milgrom, 和 Weingast, 1994)和世界貿易組織(Maggi, 1999)到黑手黨(Dixit, 2003)。


3.2. 其他貢獻

奧曼對賽局理論及其在經濟學中的應用做出了許多重要貢獻,這裡僅提及其中幾項。

玩家對彼此策略集、資訊和偏好的認知,對於他們在博弈中的行為選擇至關重要。因此,提出這樣的問題是自然的:哪些認知假設會導致理性玩家的均衡博弈行為?賽局理論家在這個基本問題上大多保持沉默,經濟學家則進行均衡分析時並不過多擔心這個問題,直到奧曼提出了被稱為互動認知論的研究議程。在他的論文《同意不同意》(1976)中,奧曼將「共同知識」的概念引入賽局理論,這一概念最早由路易斯(Lewis, 1969)提出。如果某事件是所有玩家的共同知識,這意味著所有玩家都知道這件事,所有玩家知道所有玩家都知道這件事,並且所有玩家知道所有玩家知道所有玩家知道這件事,如此類推,無限循環。大致來說,奧曼證明,如果兩個玩家對某事件的概率評估是共同知識,那麼他們的評估必須是一致的。奧曼的這一反直覺的「一致性結果」對金融市場中交易的理論分析產生了巨大影響,例如米爾格羅姆和斯托基(Milgrom and Stokey, 1982)的研究。

在1980年代,伯恩海姆(Bernheim, 1984)和皮爾斯(Pearce, 1984)證明,玩家的理性及他們對博弈和彼此理性的共同知識通常並不會導致納許均衡,甚至在唯一納許均衡的博弈中也不會如此。十年後,奧曼和布蘭登伯格(Aumann and Brandenburger, 1995)建立了納許均衡博弈的充分認知條件。

如前所述,奧曼定義了強均衡的概念,這是一個納許均衡的精化。在1974年和1987年發表的兩篇論文中,他還定義了一個比納許均衡「粗糙」的解決概念:相關均衡。與納許均衡不同,相關均衡允許玩家的策略具有統計依賴性,因此納許均衡是統計獨立的特殊情況。如果玩家可以根據相關的隨機變數來決策,如天氣的不同但相關的觀測結果、新聞事件或環境中的其他變量,則相關均衡是可能的。在相關均衡中,給定其他玩家的決策規則,每個玩家的條件選擇都是最優的。

完整資訊博弈的相關均衡結果集合也為玩家在選擇策略之前能夠自由溝通(例如通過公正的中介)的情況下的合作界限提供了指導。如果每個玩家觀察到的隨機變數是來自公正中介的建議,那麼相關均衡就是一組建議,使得沒有玩家可以通過單方面偏離其建議來增加期望收益。在前述的動員博弈中(見表1),可以證明存在相關均衡,在這些均衡中戰爭被完全避免,而談判的收益對 (b, b) 以正的概率實現。具體來說,假設中介以相同的概率 􀀜 推薦其中一個國家避免動員,並以剩下的概率 1 - 2π 推薦雙方避免動員。如果 π > 2b/(2b+a-c),則每個國家只有在收到這個建議時才會避免動員。對於相關均衡與博弈中溝通角色之間聯繫的詳細討論,請參見邁爾森(Myerson, 1991,第6章)。

奧曼(1987)表明,相關均衡可以被視為將貝葉斯決策理論擴展到非合作博弈的自然延伸。在這種解釋中,理性玩家(根據薩維奇1954年定義的理性)將在其理性和概率先驗是共同知識的情況下進行相關均衡博弈。

奧曼還對經濟學的其他領域做出了顯著貢獻,其中一項是他與弗蘭克·安斯康(Frank J. Anscombe)在決策理論上的合作研究(安斯康與奧曼,1963),另一項是他在完全競爭的連續模型上的研究(奧曼,1964, 1966),還有一項是他與摩西·庫爾茲(Mordecai Kurz)及亞伯拉罕·內曼(Abraham Neyman)合作,將賽局理論應用於政治經濟學的研究(奧曼與庫爾茲,1977;奧曼、庫爾茲與內曼,1983, 1987)。



OT認為賽局理論強調在理性決策者之間的互動和戰略選擇,而這種理性預設在現實世界的應用中,尤其是軍事和政治博弈時,常常會受到挑戰。當涉及到國內的民族情緒、意識形態或群體身份認同時,國家或領導者的決策不僅僅是基於戰略理性,而是受限於政治壓力和社會情緒。這樣的情況使得賽局理論中的「理性行為者」假設在現實中不完全適用。

例如,在現代國際關係中,民族情緒經常會推動決策者採取看似非理性的行動。例如,儘管國際社會中可能有和平談判或戰略妥協的空間,但國內的民族情緒往往會推動一個國家做出更具對抗性的選擇,以免被視為軟弱或屈服於外部壓力。在這樣的情況下,決策者即便知道某些策略可能會增加衝突風險,仍會選擇迎合國內的輿論或情緒,這與賽局理論中預設的完全理性行為者不同。

此外,現代戰爭的決策常常不僅僅是出於國家利益的最大化考量,還可能受到領導者個人的心理狀態、國內政治鬥爭、媒體的影響等多方面因素的干擾。這些因素使得軍事博弈的分析變得更加複雜,單純的賽局理論模型在這種情況下可能需要加入更多心理學或行為經濟學的因素才能更好地解釋。

然而,這並不意味著賽局理論對這些情境完全無用。相反,賽局理論在現代社會中仍然提供了一個強有力的框架來分析國際關係和商業競爭。只不過,它可能需要與其他學科的觀點結合,如行為經濟學、政治心理學,來更好地應對現代社會的複雜現實。

賽局理論的發展確實讓我們對許多問題有了更深的理解,但要完全解釋現實世界中的軍事或政治行為,我們還需要考慮到更多非理性的因素,尤其是國內情緒、文化和領導者的個人偏好等。這樣的情緒和非理性往往會使得純粹理性的戰略分析失效或偏離預期。



參考資料:


民國113年10月5日
OTORI Z. +

沒有留言:

張貼留言