合作的進化-讀書筆記

出自楠悦读

本書作者羅伯特·艾克斯羅德(Robert Axelrod,1943年5月27日-),密歇根大學政治學與公共政策教授,美國科學院院士,著名的政治科學家、行為分析學家及博弈論專家。除本書外,還著有《合作的複雜性》、《合作的競化》等著作。

這本書就是從博弈論的角度,幫我們分析並且判斷,在跟別人打交道的時候,在跟別人構成的社會環境打交道的時候,應該採取什麼樣的策略?

作者以組織的兩輪「重複囚徒困境」競賽為研究對象,結果發現在兩輪競賽中勝出的都是最簡單的策略「一報還一報」。這一策略簡潔明晰,具有善良性、寬容性、可激怒性和策略性。

理解博弈論

為了更好地理解博弈論,我們先從它的起點,也就是囚徒困境開始。什麼叫囚徒困境?兩個壞蛋被警察抓住了,警察說你們兩個誰先招供,誰就獲得獎勵。那個不招供的人就要受到處罰。為什麼叫囚徒困境呢?

假設對方選擇合作:

情況1:對方合作,你選擇合作,兩個人各3分。

情況2:對方合作,你選擇背叛,對方0分,你5分。這個時候你選擇背叛比合作好,5分比3分高。

所以,如果對方合作,你就應該背叛。

假設對方選擇背叛:

情況1:對方背叛,你選擇合作,你0分,對方5分,他占了你便宜.

情況2:對方背叛,你選擇背叛,他1分,你也1分。雖然只有1分,但是總比被對方占便宜好,比0分好。

所以如果對方背叛,你就應該背叛。

在博弈過程中,如果你是參與的一方,你的最優策略是什麼策略?前面第一種大的情況我們說的是什麼?如果對方合作,你就應該背叛。

所以,對你來說最優策略是,不管對方合作還是背叛,你都要選擇背叛。反過來也一樣。對另一個參與者而言,他的最優策略也是背叛。

那麼對單一參與者而言,不管對方怎麼選擇,最優策略都是我要背叛,結果兩個人共同的選擇都是背叛,收益是各1分。但是請注意,我們明明選擇了一個最優策略,但最後怎麼才得了1分?但是我們也知道,明明有一個更好的分數,是可以獲得3分的。就是我們雙方合作,各得3分不好嗎?這就是囚徒困境中的困境。

我們選擇了最優策略,卻失去了一個比最優策略的結果更好的結果的機會。到這裡,我們可以從囚徒困境的基礎模型里,學到博弈論教給我們的第一個常識性結論:

一個人的收益,不僅來自於他選擇的策略,也來自於對方選擇的策略,是雙方的策略共同作用的結果。那如何打破囚徒困境呢?        

打破困境,實現最大收益

第一個條件就是要重複博弈。大家第一次碰面,你也不認識我,我也不認識你,這個叫單次博弈。單次博弈就會陷入囚徒困境,打破囚徒困境首先要打破單次博弈。

第二個條件,收益預期要足夠大。

其實,本書要解決的第一個問題就是,在利己主義者中間,什麼條件下才會產生合作。囚徒困境面對的情況是,在面對一件事情的時候,我們會有不同的選擇,但是這兩種選擇導致的結果不會是你死我活,這不是博弈論里的零和博弈。

什麼是零和博弈?它指的是我贏你就肯定輸,這是零和博弈,因為只有一方能贏。而囚徒困境是指,我們有多種策略選擇,在每一種策略選擇之下,收益的結果不一樣。

面對不同策略,我們怎麼選擇那個讓我們收益都變得更大的策略呢?

一報還一報的善良策略

在博弈論里我們應該如何與人打交道?我應該合作,還是背叛?我採用哪種策略呢?作者一開始也不知道,所以他設計了一個計算機程序大賽。

他邀請全世界來自心理學、經濟學、政治學、數學和社會學五個領域的專家,而且他們都是對博弈論是有過研究的人。讓這些人設計一套自己的策略程序,來看看哪一種策略在跟別人打交道的過程當中最有優勢,得分最高。

他一共收到了14個程序,這14個程序兩兩之間做博弈,打交道,一共是5輪比賽,每次200局,一共是12萬次對決,有24萬個不同的策略組合,這些策略每個都不一樣,各種各樣的,刁鑽的稀奇古怪的策略都有。最後誰贏了?是所有的程序里最簡單的那個程序得了最高分,這個程序就叫一報還一報。

一報還一報程序是怎麼運行的?第一步他一定先選擇跟對方合作,從那以後他的選擇就是在重複對方上一步的選擇。一報還一報下一步的策略一定是重複、去模仿對方上一步的策略。你剛才跟我合作了,我接下來就跟你合作。你剛才背叛我了,我接下來就背叛你。一報還一報是所有程序里最簡單的程序,但是得分最高。在前8名的程序里,所有程序都是善良的程序。

那你說第一次大家可能還不懂,設計的程序也太簡單,沒拿這當回事。於是,作者又組織了第二輪比賽。第二輪比賽做了進一步的升級,首先他邀請的參賽者更廣了,又增加了計算機科學、物理學、進化生物學的教授,這一次他一共收集到了63個程序,而且他把第一屆比賽的結果還告訴了所有人,讓大家看到第一輪比賽中哪些程序的得分是多少,排名是什麼。

第二輪的比賽結果還是一報還一報獲勝。一報還一報是所有的參賽程序里唯一沒有被改動過的程序,第二輪又贏了。在第一輪里,前8名都是善良的程序。那第二輪比賽什麼結果呢?第二輪比賽前15名的程序里,只有一個是不善良的,後15名只有一個是善良的。

一報還一報真有這麼厲害嗎?他們開始改遊戲規則。遊戲規則做了6次更改,讓一報還一報碰到的策略對手更多樣化、更刁鑽、更狡詐,當然也有可能更單純。6個變形的比賽規則之下,一報還一報5次排名第一,1次排名第二。

從這樣的比賽結果中,我們可以得到這本書告訴我們的第二個重要的結論:在跟別人打交道的過程中,我們首先要保持善良,然後根據對方的策略,隨時調整轉換我的策略,以其人之道還治其人之身,就是最好的策略。

一報還一報厲害在哪兒,怎麼就能在每一次不管面對什麼對手的時候,都得高分呢?它的特點是什麼?

1.善良性。

主動地跟對方合作,從來不主動讓自己陷入麻煩,所以第一步永遠是合作,不管對方是不是認識的、熟悉的,在跟陌生人打交道的時候,第一步都是合作,這是它的善良性。

2.可激怒性。

我不能白白吃虧,你只要坑我一回我就記住了。我第一步先合作,接下來我就模仿你上一步的策略,你跟我合作了我下一步還合作,你要是背叛了我,我下一步一定背叛你,這叫可激怒性。

3.寬容性。

如果對方合作我馬上就合作,因為我在模仿你的策略。你要一直背叛我,我就一直背叛你,你有一次開始跟我合作了,我馬上就開始跟你合作,不計前嫌。

4.清晰性。

一報還一報一點都不複雜,很容易就琢磨透了。不首先背叛對方,可是如果對方背叛他,他就會報復。如果對方不再背叛他了,他也就不再報復對方了。

總之,「一報還一報」的成功是由於它的善良性、可激怒性、寬容性和清晰性。它的善良性意味着它決不首先背叛,這個特性防止它陷入不必要的麻煩;它的可激怒性使對方一旦嘗試背叛後就不敢堅持;它的寬容性有助於恢復雙方合作;它的清晰性使得它的行為方式容易被辨識,一旦被識別,就容易看出與「一報還一報」相處的最好方式就是與它合作。

如何在生活中和工作中促進和別人的合作

既然我們已經接受了這個事實,理論推導、計算機模擬、現實的案例都告訴我們,要善良,要一報還一報,要被激怒,這對現實生活的幫助是什麼呢?

不要做什麼

第一,別嫉妒。

你在生活當中嫉妒別人沒有用,你要獲得更大的收益,前提是你也得讓對方獲得收益。嫉妒對方容易導致背叛,因為你心裡不平衡,你嫉妒,你也不管收益有沒有增加,你讓對方的收益變小了,你心裡就平衡了,這就是嫉妒的結果。你採用背叛的策略,你一背叛,對方就會報復你,結果你倆誰也沒有好果子吃,你的收益也降低了。

你應該真誠期待跟你合作的人,跟你打交道的人獲得成功,因為他成功了,他跟你的合作才會持續下去。

第二,不要首先背叛。你一背叛對方肯定會背叛,雙方一背叛收益就會降低。

第三,不管對合作還是對背叛都要給予回報。這裡的回報其實它指的是要對對方的策略行為給出相應的反應和反饋,而不是我們通常意義上那種善意的回報、報答。也就是正向的反饋,不管是你跟我合作還是背叛我,我都要給出正面、直接的反饋,基於你的策略,我來給出我的反饋策略

第四,別耍小聰明。

作者在這個計算機模型比賽中發現,有一些程序的設計者老想耍小聰明,就是一開始表現挺規律的,你合作我就合作,你背叛我就背叛,但是他會抽冷子背叛一次。囚徒困境是我們有多種選擇,不是你死我活,你耍了小聰明,對方會記住你,下次都會反饋到你身上。所以,你對對方的策略,包括耍小聰明,最後由於重複博弈,都會反射到你自己的身上。

更好促進合作

我們做點什麼才能促進彼此的合作呢?作者也給出了建議。

第一,要增大未來的影響。

第二, 讓接觸更加頻繁。

第三,改變收益值,讓合作的收益大於背叛的收益。如果你表現得很通情達理,那也許我們明天可以去環球影城玩一圈。讓未來改變合作的收益,讓合作的收益值顯得足夠有誘惑力,大於背叛的收益。

第四,關心他人。在跟別人打交道的時候,你可別光想着自己。博弈的基本規則就是,收益取決於雙方的策略,不是你一個人說了算的。如果你關心他人,你就能想到對方的利益在哪裡,你就會主動地採取那種合作的策略。

第五,回報。不管他是背叛還是合作,你都要回報。他背叛,你還合作,你就是好人。他合作,你背叛,你就是小人。他合作,你也合作,你就給了他一個積極的信號,他下次還跟你合作,你們雙方的合作就建立起來了,就會持續下去。

第六,改進辨別的能力。一報還一報就是你上次怎麼對我的,我這次就怎麼對你,這叫以其人之道還治其人之身。那如果你忘了呢?你還保持一個善良的策略的規則,你有可能一直被人占便宜,因為你忘了他上次坑過你了。

合作就是你可以相信我這次不會坑你,因為我下次還準備賣你東西,我還準備賣別人更多的東西,我會珍惜我的品牌形象,這就叫讓你對我有一個清晰的辨識度。品牌的建立,就是出於增加辨識度,給人以未來預期的信心這樣的初衷建立的。

合作的進化 導圖
合作的進化 導圖