隱藏的博弈—讀書筆記

出自楠悦读

人們總是喜歡認為自己是理性的,這也是傳統經濟學研究的基本假設,但正如行為經濟學所表明的那樣,人類的很多行為其實是非理性的——這不禁讓人懷疑博弈論在現實世界中的可信度。

這本書告訴我們,很多時候我們以為自己是被情緒、被喜好驅使着去行動,其實驅使我們的,是在漫長的人類演化過程中,早已種植在我們基因里的那些,隱藏的博弈策略。比如我們說話時為什麼會拐彎抹角,到斯德哥爾摩綜合徵的發生,以及我們為什麼會願意幫助陌生人。

博弈論的概念

在博弈論中有三個最基本的概念,也就是思維工具。了解這些工具,能幫我們理解很多現象背後的邏輯。

納什均衡

作者強調,它是整個博弈論中最重要的概念。它的提出者是數學家約翰·納什。納什均衡描述的是博弈當中呈現的一種特定的均衡狀態。在這種狀態下,所有的參與者,都不能單獨改變自己的行動策略。因為誰改變,誰就會遭受損失。

簡單來說就是,參與博弈的每一方都找到了針對另一方的最佳對策。數學家納什對這個均衡的解釋,是一套數學語言。在《博弈論與生活》這本書中,有一個案例。

美國有兩大橄欖球聯盟,一個強勢,一個弱勢,這兩個聯盟分別組織自己的比賽,強勢聯盟在秋季比賽,因為秋季市場最大,但是弱勢聯盟也想在秋季辦比賽,把對手擠到春季去,那麼,弱勢聯盟究竟該不該這麼做呢?我們假定秋季有1億人觀看橄欖球比賽,而春季只有5000萬人看比賽。如果兩大聯盟同時選擇一個季節,強勢聯盟將得到70%的收視率,弱勢聯盟只有30%的收視率。 也就是說,如果兩大聯盟同時在秋季比賽,只有3000萬人會觀看弱勢聯盟的比賽;而如果弱勢聯盟繼續選擇在春季比賽,他們還會有5000萬觀眾。面對強勢聯盟,弱勢聯盟沒有一個優勢策略,它只有一個均衡選擇,就是永遠在強勢聯盟停賽期間比賽。

也就是說,在各方都選擇了同一策略的情形下,沒有一方能夠通過獨自改變策略而獲益,此時的策略搭配和後續結果,就構成了納什均衡。在生活當中,經常會出現各式各樣的納什陷阱。

比如,一個小城市裡,有幾家漢堡店,都扎堆開在市中心,競爭很激烈。有人好奇,為什麼不分散開店呢?一人占據一塊地方,不好嗎?但是,如果我們從某一家漢堡店的角度來看,就會發現,他是不可能去別的地方的。為什麼呢?我們想,假如你是第一個開店的,如果你不開在市中心,而是開在城南邊,那這個時候如果有競爭者來了,直接把店開在市中心,那他的客源就會比你多。所以,第一家開店的,肯定會開在市中心。 那後面來的呢?他們想的其實也是這樣。只要他沒有在市中心開店,那肯定就有一部分的市場要讓給別人了。他怎麼能讓自己還沒開始競爭就輸了呢?所以最後,所有的店都開在市中心了。這就是納什均衡。

表面上看,在哪裡選址,好像是自由的。但是,在一個多方參與的博弈格局裡,每個人都要以其他人的行為為前提,去做出對自己來說最好的選擇。人人都這樣,最後就會形成納什均衡。這個時候,只要有人改變策略,他就會遭受損失。

那麼,我們這裡說的「損失」,指的是什麼呢?博弈論里所有討論的「損失」「收益」,指的都是初級獎賞的變動。

初級獎賞和次級獎賞

初級獎賞指的是那些深深刻在人類基因里的,我們生來就喜歡的東西。比如食物、安全、健康,另外還有一些社會性的東西,比如信任、名望和權力。但是,這裡並不包括金錢。因為金錢不是我們生來就喜歡的,而是我們長大以後知道了,金錢能換來很多我們前面提到的初級獎賞,我們才會喜歡金錢。

為什麼在生活中,有時候金錢激勵會失效就是這個原因。比如有的時候,沒有報酬我們也會努力地去做一些事或幫一些人。很可能我們想要的不是錢,而是一些初級獎賞,比如信任、名望。

有一項研究,在一家幼兒園裡,頒布一條新規則,說以後家長接孩子如果遲到,就按時間來收罰款。結果,遲到的家長更多了,到得也更晚了。這是為什麼呢?原因就在於,原本接孩子遲到,對於家長的懲罰是一種社會譴責,但是,引入罰款之後,家長就會想,雖然我遲到,但我交了錢,罰款就相當於託管費了;他們就不再擔心遲到了會讓幼兒園的人不高興,會讓其他家長覺得自己不稱職。這就讓金錢抵消了社會譴責。

除了金錢,還有哪些東西屬於次級獎賞?比如,愛好;或者,很多人都努力追求的職稱。這些,都屬於次級獎賞。而這些,都不是博弈論所關注的對象。博弈論,是一種分析初級獎賞的工具。在博弈論中,一切「收益」或者「受損」,指的都是初級獎賞的增或減。

近端解釋與終極解釋

為什麼印度菜的香料味很重?近端解釋是,印度人就愛吃這種口味。這關注的是次級獎賞——口味偏好。而終極解釋是,香料能抑制和殺死那些會讓食物變質的細菌。這在氣候炎熱的地區很有用。這關注的就是初級獎賞——健康和安全。

在斐濟這個地方,女性在懷孕和哺乳期間,要嚴格遵守一些飲食禁忌,不吃某些特定的魚類,比如鯊魚、梭魚和海鱔。但她們平時經常會吃這些。對於這件事,如果你去問一位女性為什麼,她很可能會說,是我媽媽囑咐我的,我們這兒都是這樣的。

但是生物學家不滿足於這一層,發現了終極解釋,那就是,那些魚裡面含有危險的雪卡毒素,過多的雪卡毒素會讓人生病。而女性在懷孕和哺乳期間更容易受到毒素的影響,毒素還會傷害到孩子。

這就是近端解釋和終極解釋的區別。雖然,近端解釋有時會很有趣,或者能解決一部分問題,但這絕對不是結束,也算不上一個令人滿意的答案,我們需要找到終極解釋。

高成本信號模型

「高成本信號」的邏輯,就是不管發送者是什麼類型,發送這個信號都是一件高成本的事情。但是,對某一些特定的群體來說,成本要相對低一些,發得起這個信號。所以,這個博弈里最重要的納什均衡是這樣的:當且僅當發送者是「高級」時,它才會發出高成本信號。所以,追溯全球歷史,人們追逐的審美、口味、偏好在不斷變化,這背後的邏輯,很多時候就是高成本信號模型。

比如,食物的口味。從中世紀和文藝復興初期的食譜里,我們其實可以看出,當時各個階層的歐洲人都是糖和香料的重度愛好者。那個時候糖和香料是進口的,很貴。普通家庭只能在隆重場合用,而商人和貴族經常這麼吃。但是後來,隨着歐洲與印度貿易的發展,糖和香料的價格下跌,所有家庭都用得起了。原本的高成本信號墜入了凡塵。所以,在法國路易十四統治期間,又流行起了一種新的烹飪風格,保留食材的原味,簡化調味。這就是在非常明確地對外發送高成本信號。

有些人會刻意去隱藏一些高成本信號。比如,作者說,在美國,有些哈佛大學的學生並不會直接說自己是哈佛的,別人問他在哪裡上學,他會回答,「在波士頓那邊」。為什麼會有像這樣的,隱藏優勢信號的行為呢?

書里講到一個故事,有個叫老李的有錢人,給當地一家美術館捐了一個新的展廳。他去參加落成典禮,看到自己的名字在展廳門口,覺得很滿意。可是一轉身,發現美術館的另一個展廳的捐獻者,居然是匿名的。他馬上就高興不起來了。他跟愛人說:「好嘛,現在顯得我像是為了名聲才捐的了。」 後來,情況更糟了。參加典禮的人都想知道匿名的人是誰,後來大家打聽出,原來是老譚。老譚正是老李的死對頭。老李聽着大家都在夸老譚,生氣地走了。回家路上還跟愛人吐槽:「沒人跟我說可以先匿名,然後再告訴大家呀!不然我肯定也這麼幹。」

那在這個故事裡,可能老譚就是想通過先隱藏信號,再暴露出來,加強人們對他這個信號的印象,還能額外地釋放一個「我很謙虛」的信號。

還有一種更大的可能性是,老譚並不是很在意,是不是所有人都知道他捐贈了。

為什麼呢?有可能老譚已經是一個特別有名的企業家了,還做過很多慈善,不需要用這一筆小小的捐贈來給自己貼金。在現實中,也有很多這樣的時候,就是一個人已經有很多優勢了,他就不需要特意主動展現其中的某一項來博取別人關注。

還有一種可能,就是他不想對所有人都發送信號,只想把信號發送給特定的人。

比如,一些頂級富豪並不會穿奢侈品牌的衣服,而是會找特定的設計師定製,這些衣服外表看起來很樸素,但是懂行的人卻能識別出,這是花錢也買不到的頂尖設計師作品。而這些懂行的人,大概率也是身家不凡。

所以,隱藏,其實本身就是一種高成本信號。它表示你能承擔得起有人看不到你的一些優勢信號的後果。換句話說,低調、謙遜、匿名,這些「不炫耀」,恰恰是最貴的炫耀信號。

子博弈完美均衡

1878年,在美國,有兩個大戶人家,哈特菲爾德家族和麥考伊家族。這天,他們因為一頭豬鬧上了法庭。原來,這頭母豬在哈特菲爾德家族的地盤上下了崽兒。哈特菲爾德家族就說,這些豬都是我的。但是麥考伊家族說,這頭母豬耳朵上有我家的標記,這些豬應該都是我們的。他們在法庭上吵個不停。 經過了漫長的審判,最終,豬被判給了哈特菲爾德家族。事情到這裡就結束了嗎?並沒有。在這之後的10年裡,這場爭吵逐漸升級成了一場只能用「屠殺」和「鬥爭」來形容的全面戰爭。這10年裡,雙方一直在變本加厲地相互報復:打架、綁架、闖進家裡打人、懸賞抓人、放火燒屋、槍戰,事情不斷惡化……兩個家族就這麼一步步地,一起走向了毀滅。

從事後結果的角度來看,兩家的行為是很不理性的。表面上看,我們讓情緒代替了理性思考。但是,博弈論學者們發現,這只是一種近端解釋。而終極解釋是,這種「以牙還牙」的策略,其實是一種動態博弈中的子博弈完美均衡。這種看起來不夠理性的行為,其實是「隱藏的博弈」之中的理性選擇。

以牙還牙

說的是兩個囚徒,雖然從全局角度來看,兩人都不招供是最好的,但是如果設置的懲罰是,你被對方單方面指認了,就會受重罰,那麼兩個囚徒從自身的利益考慮,都會選擇背叛對方,把對方供出來。

囚徒困境的解法就是,增加博弈的次數,把單次博弈變成重複博弈。比如,如果這兩個囚徒都是一個組織里的,即使暫時坐牢了,出來以後肯定還會再見面的,那他們互相背叛的概率就會降低。

其實,到這裡,事情還沒有結束。如果我們構想這麼一個多輪的動態博弈,每一輪,博弈雙方都可以自由選擇是合作還是背叛。那麼其實,選擇在每一輪里都合作,並不是對個人來說最優的策略。

那最優的策略是什麼呢?學者們經過數學計算和計算機模擬,得到的是這麼一個策略,就是在每一輪雙方都同時做出選擇的情況下,你作為其中一方,第一輪你先選擇合作,之後的每一輪,都複製對方的上一步——他合作,你就合作;他背叛,你也背叛;他改正重回合作,你也改正。這個策略,名字就叫「以牙還牙」。

要在現實中使用這種策略,我們記住三件事就可以了:第一,要先亮出合作的、友善的態度,不主動傷害別人;第二,不要忍氣吞聲,如果對方背叛了你,你也背叛他;第三,如果對方改正,你也繼續合作,而不是咬住不放,不停地背叛。

但是,你可能會注意到,這種策略應用的前提是,雙方每一輪要同時做出選擇。那如果是雙方輪流出招,最優策略是什麼呢?

重複懲罰博弈

在這個博弈裡面,每一回合,都是第一個人先行動,選擇合作還是背叛,然後第二個人再行動,不過第二個人選擇的就不是合作還是背叛了,而是要不要懲罰第一個人。

那麼我們想想,在這樣的重複懲罰博弈里,子博弈完美均衡是什麼?子博弈完美均衡,不僅要求全局上是納什均衡,在每一個回合(也就是子博弈)里,也要是納什均衡。

我們來想,如果第一個人的策略是每次都合作,那麼第二個人在設想第一個人有偶爾一次背叛的時候,還有動機去懲罰他嗎?如果懲罰是要付出成本的,要耗費人力物力,那可能第二個人就不去懲罰了,因為下一輪第一個人還會是合作,懲不懲罰就無所謂了。而如果第一個人也知道這一點,那麼他就有動機去背叛,這一套想下來,就會破壞納什均衡。

所以,這裡的關鍵就在於,要能保證,只要第一個人背叛,第二個人就一定會選擇懲罰。怎麼實現這一點呢?我們要在前面的策略裡面加上一個條件,變成:

只有當第一個人看到,之前所有的背叛行為都得到了懲罰,他才會選擇合作。否則,他就背叛。這樣的話,第二個人如果不懲罰背叛行為,之後就會承受損失了。那他一定會對背叛行為做出懲罰。這才能構成子博弈完美均衡。

其實在重複博弈中,必須要讓過去的事情變得重要,這才是能維持合作的唯一途徑。博弈論告訴我們的是,有條件的合作要好過無條件的合作,「以直報怨」要好過「以德報怨」。那種無條件的合作,會鼓勵不守規矩的人去欺負守規矩的人。而對背叛有懲罰,至少是有可以懲罰的威懾力,才更有利於長久的合作共贏。

所以,看起來不夠理性的「以牙還牙」,其實正是「隱藏的博弈」中的理性選擇。

隱藏的博弈 導圖
隱藏的博弈 導圖