博弈論與生活-讀書筆記
《博弈論與生活》博弈論自20世紀40年代誕生以來,得到西方商界、經濟學界、軍事領域、社會學界的廣泛應用。博弈論的觀點告訴我們,面對利益的相互制約,最佳的應對策略不是衝突,而是合作;不是競爭,而是互助。作者在跨學科研究中找到了完備的科學問題處理方法,用博弈論中的合作策略為日常生活中的問題提供行動指南。
囚徒困境
首先最有名的博弈論的命題,叫囚徒困境。囚徒困境的命名者是普林斯頓大學的阿爾伯特·塔克。什麼叫囚徒困境?它是經濟學中非常著名的一個概念。
比如,你和你的搭檔是兩個間諜,被警察逮捕了。你們兩個人被完全隔離,分別接受審訊。如果你和你的搭檔都保守秘密,會被拘留一年;如果只有你保守秘密,你的搭檔坦白的話,他會被立即釋放,而你要入獄十年;如果只有你坦白而搭檔保守秘密的話,你會被立即釋放,搭檔要入獄十年;兩個人都坦白的話都會入獄五年。最好的方案當然是你和搭檔都保守秘密,但是因為擔心對方會坦白,從而導致自己可能要入獄十年,所以在囚徒困境中最保險的選擇是兩人都坦白。
它為什麼是一個困境?因為並沒有達成它可以獲得的最好的狀態,雙方產生了博弈。囚徒困境在生活當中太多了,比如追女生。作者說,他小時候跟他弟弟同時喜歡上社區里一個新來的小女孩,然後兩個人都跑到小女孩面前去說對方的壞話,最後的結果是兩個人誰也追不到。這也是囚徒困境。我們先來看一個概念,叫納什均衡。納什均衡的意思是,參與博弈的每一方都找到了針對另一方的最佳對策。這個理論是著名數學家、博弈論創始人約翰·納什提出來的,所以均衡策略也叫做納什均衡。
比如,美國有兩大橄欖球聯盟,一個強勢,一個弱勢,這兩個聯盟分別組織自己的比賽,強勢聯盟在秋季比賽,因為秋季市場最大,但是弱勢聯盟也想在秋季辦比賽,把對手擠到春季去,那麼,弱勢聯盟究竟該不該這麼做呢?我們假定秋季有1億人觀看橄欖球比賽,而春季只有5000萬人看比賽。如果兩大聯盟同時選擇一個季節,強勢聯盟將得到70%的收視率,弱勢聯盟只有30%的收視率。也就是說,如果兩大聯盟同時在秋季比賽,只有3000萬人會觀看弱勢聯盟的比賽;而如果弱勢聯盟繼續選擇在春季比賽,他們還會有5000萬觀眾。面對強勢聯盟,弱勢聯盟沒有一個優勢策略,它只有一個均衡選擇,就是永遠在強勢聯盟停賽期間比賽。
也就是說,在各方都選擇了同一策略的情形下,沒有一方能夠通過獨自改變策略而獲益,此時的策略搭配和後續結果,就構成了納什均衡。在生活當中,經常會出現各式各樣的納什陷阱。
比如,離婚。離婚這件事發展到最後往往就是爭財產,一開始大家都不這麼認為,開始離婚的時候大家都會說,錢我不在乎。但最後發現對方真的都拿走了,就開始生氣,說憑什麼你這樣對我。然後就開始打官司。最後你會發現大量的錢用作了律師費,用作了消耗的社會成本。原因就是雙方各不退讓,不願意妥協,最後陷入到一個納什均衡當中。這就是為什麼離婚會成為一個非常痛苦的過程。作者說,如果你希望在離婚當中不要有那麼大的傷害,就各讓一步。那具體應該怎麼解決呢?
破除囚徒困境
第一步是找到方式達成協議;第二步,找到方式讓對方不變卦。比如,一開始大家約定好都不招,這就是一個協議;但後來有人變卦,你就受不了了。所以要用博弈論的方法來解決這個問題。
達成合作
讓對方不變卦有三個途徑:第一,改變態度。就是我們在博弈的時候不要有那種 「不蒸饅頭爭口氣」這樣的想法,如果你能夠稍微成熟一點,能夠把效用範圍變得更寬泛一點,可能更容易達成協議。第二,訴諸善意的權威人士。就是找一個比較有權威,大家都聽他話的人,比如有的家族有族長,那就請族長來進行辯論,聽老人家的話,告訴大家應該怎麼做。這個叫訴諸善意的權威人士。第三,制定能夠自行運作的策略。就是設置一套能夠自行運作的機制,不需要整天由長老出面來解決問題,這個是博弈論的重點。因為前兩個其實都是教育工作,涉及的都是你的態度,你要信任。最後一個是不需要教育工作,你照着做就行了。
交通規則就是一套典型的自行運轉的機制。很多地方不需要警察,只要有攝像頭,交通就能順暢地運行。所以重點就在於我們怎麼樣去打造出能夠自行運作的策略來。要解決囚徒困境,就要解決公平和正義的問題。
如何公平分配
人們對於公平和正義的需求,是一個天然的感受,甚至黑猩猩都能這樣。動物學家研究黑猩猩,給它們分香蕉,他故意地給一些黑猩猩分得少,給這個兩三個,給那個就分一個。竟然有的黑猩猩把那個香蕉摔了不吃,它生氣了。我們以為說只有人才會在意公平,其實猩猩也在意。所以人們對於公平和公正的需求,是一個底層的動物性的需求。
我切你選
「我切你選」策略在什麼情況下有效?著名數學家、計算機的始祖馮·諾依曼講過,只有在零和博弈中有效。零和博弈表示所有博弈方的利益之和為零或一個常數,即一方有收入,其他方必有所失。在零和博弈中,博弈各方是不合作的。比如,家裡分財產,我不可能通過分財產這件事創造出更多價值來,要麼我多,要麼你多。這叫零和博弈。在國際社會上,如果你是零和博弈的思想,那就是看誰強大,然後討論怎麼分。但假如你能夠通過建設、通過獲取更大的收益來解決,這時候「我切你分」這個方法,就未必見得有效了。
比如,有一次作者去晚宴上吃飯,最後一道是甜點,輪到他這兒的時候只剩兩塊蛋糕了,一塊大一塊小。他後邊還有一位女士,然後他就展現紳士風度,把蛋糕交給那個女士,說您先選。他想觀察一下這個女士會選哪塊。結果她毫不猶豫地選了小的那一塊。他就覺得很奇怪,難道博弈論不存在了?他就問:您為什麼選小的這塊呢?女士說:「我覺得選大的有點不好意思。」這是什麼呢?這是效用問題。
什麼是效用?比如對於一個正在減肥當中的女士,或者一個要顯示紳士風度的男士來講,別人怎麼看你、對你有什麼樣的印象,這些可能比吃到多大的蛋糕更重要。所以儘管她的選法跟其他的案例當中的假設都不一樣,但是博弈論依然存在。因為它的效用變了,這個美好的感受也成為了效用的一部分,因此那個女士依然是自私的。
有爭議的部分平分法
那如果遇到更複雜的情況,通過簡單的「分蛋糕」不能解決了,應該怎麼辦呢?那就是運用有爭議的部分平分法。什麼叫作有爭議的部分平分法?
比如,大房和二房要分財產,大房堅持認為說我要分全部的財產;二房認為我至少應該分到這財產的一半。那麼請問,根據我們古老的智慧,她倆應該各分多少?答案是不用算,大房75%,二房25%。你說這是為什麼?過程很簡單,首先看哪些是有爭議的部分。有爭議的部分是一半,因為二房主張只要一半;另外一半是沒爭議的。沒爭議的先分給大房,剩下的一人一半,所以大房75%,二房25%。人類歷史上大量分割問題的解決,都來自於這個公式。
調整贏家法
調整贏家法的基本原理就在於:對於同一項資產,不同的人可能會定出不同的價值,假如雙方要劃分所有權,就可以動些手腳,讓雙方感覺自己都拿到超過一半的所有權,達到雙贏的局面。而且不管是什麼情境都能夠適用,這個叫調整贏家法,雙贏。雙贏局面是怎麼產生的呢?是來自於大腦當中的幻覺。
如何突破困境
那我們如何讓一個策略能夠自行運作呢?作者說,我們要解決這些困境,讓策略自行運作,最經典的做法就是石頭剪刀布。
石頭、剪刀、布
石頭剪刀布在美國叫Ro-Sham-Bo,翻譯過來就是羅尚博。羅尚博是法國和英國打仗時的法國元帥。那為什麼用法國元帥的名字來命名石頭剪刀布呢?英國跟法國在美國打完了仗以後,雙方要簽訂和平協議,雙方主帥要走進帳篷裡邊簽和平協議。但是誰先進?這是個問題。我尊敬你,你先進;我不尊敬你,我先進。誰都不尊重誰,怎麼辦?雙方開始猜拳,用石頭剪刀布的方式解決了這個問題。所以後來大家就討論說,很有可能提出這個建議的人,就是法國的主帥羅尚博,於是美國就把石頭剪刀布叫作羅尚博。石頭剪刀布之所以有效,其實是自然界的規律。它有它的科學性存在,而且有隨機性。很多案例都是通過它來解決,猜拳是最簡單的方法。
比如,一個日本人要拍賣一幅畫,蘇富比和佳士得都想要。怎麼選呢?雙方提了好多提案,競爭的能力不相上下,這個老闆就很苦惱。他女兒在旁邊出主意,說讓他們石頭、剪刀、布吧,最後解決了。
通過溝通協商來建立聯盟
通過溝通協商來建立聯盟,才是解決博弈問題的最本質的東西。只有我們真的相互信任,所有的困境就都能解決。前提是真的信任,真的形成了聯盟。
比如,鯡魚,這種魚類溝通的方式是放屁。它在水裡放屁是有節奏的,通過這個節奏,它們之間達成一致,知道往哪兒游,知道什麼地方有食物,哪兒有危險。他說連一個鯡魚都知道要放屁來解決溝通問題。蜜蜂通過跳8字舞的路線來代表它的發現,這是蜜蜂的語言。
人類最樸素的溝通方法,或者說給我們帶來了很多傷害的溝通方法,就是威脅和獎勵。作者說有一次他在印度買東西,他說印度人把威脅和獎勵用到了極致。他買衣服,八十塊錢。他們就很老實,給人一百,給了以後就發現不找錢。他也不跟你吵架,他說你再挑二十的。他們倆覺得太窩火了,然後這兩個英國人就學會了,假如對方說這衣服八十,那就給五十。對方說還差三十,不給了,你如果不願意賣,把五十還給我,我就走。最後他們發現這招經常會管用,這就是用威脅和獎勵來解決問題。當然要建立起聯盟,關鍵就在於信任。如果你能夠產生信任,問題就得到了解決。
比如,作者小時候過聖誕節,祖父母給他和弟弟送禮物,結果打開箱子發現送反了。然後說那你們倆換一下不就行了嗎?但是他們之間沒有信任呀,所以導致雙方都不撒手,哥哥也不撒手,弟弟也不撒手。我給了你,你萬一不給我怎麼辦?所以雙方陷入僵局,拿着對方的禮物又不想要,又不願意給對方。怎麼解決呢?這時候爸爸站出來做了一個可信的人,爸爸說你倆如果都不撒手,這兩個禮物誰都不給。他倆一聽,相信爸爸,撒手就交換。
一旦有了信任,你就會發現這個聯盟很容易建立。假如他們兩個人不合作,兩個人都要有巨大的損失。這就是在博弈當中引入第三方的好處,一旦第三方引入,聯盟的關係發生了改變,問題就解決了,這個叫通過協商來建立聯盟的過程。如果能夠形成這樣一個聯盟,最終會達成的解決方案就叫帕累托最優。帕累托最優就是最省力也最有效率的一種狀態,處於帕累特最優當中的這幾個博弈方,沒有人有動力去改變目前的博弈結果,這就形成了一個短暫的帕累特最優。大家就都能夠沿着這個方式,沿着一套規矩去做。當然如果外部的條件在發生改變、在引入新的博弈方,格局就會發生改變。
建立有效的信任機制
怎麼才能夠讓博弈雙方產生可信的承諾呢?第一,叫反悔的代價極高。比如,我們大家在一起二十年的朋友了,我們都是校友,都從一個學校裡邊出來的,我們共同認識的人至少有兩百多個,這時候你騙我,成本高不高?你騙了我以後,雖然沒有抵押,但是我只要把這個事說出來,你所有人脈關係全都沒有了。這就是為什麼在生活當中容易相信熟人的原因,他的成本代價更大。但是你也還是要小心,我也見過一個人把自己幾十個億的財產託付給一個人打理,最後那個人卷錢跑了。就是他衡量了一下,我損失了所有的聲譽,但是我也夠了,幾十億呀。所以你要想,這兩個要均衡。
其次,令對方無法改變心意。比如,德川家康獲得日本政權以後,他讓大名都到東京來建房子,把所有的大名的財產全部都搞到了東京,讓你根本沒錢造反,只要有錢就讓你造房子,把東京非常快地發展起來。而且你也得給我生活在眼皮子底下,你如果造反,我先要你的命。他很善於用這個「無法改變的心意」來解決問題。
然後還有就是使用儀式,比如古人喜歡歃血為盟。還有就是直接信任,這效用很大。就是你先付出,你直接做出信任的表率。作者認為,能夠信任別人的人,願意吃點虧的人,不那麼斤斤計較的人,在博弈的過程當中往往能夠獲得一個更好的結果。當然,不是一味的傻。
有人曾經用計算機做博弈的研究,分析什麼樣的回報策略能夠給你帶來最大的收益。結論是「以直報怨,以德報德」。什麼叫以直報怨呢?就是首先是推己及人,其次也要學會以牙還牙。我們每一個人首先要保證自己先做好人,我守信用。如果對方背叛,我就改變策略,我也背叛。博弈的有效方法就是不要心存嫉妒,不要想當第一個背叛的人。有恩報恩,有仇報仇,不要想耍小聰明,這就是合作的最有效方法。所以人要學會做一個有底線、有操守的好人,這個才是我們博弈當中能夠獲得最高收益的方向。