0%
第五章 共同進化 5.5 不講交情或無遠見的合作

第五章 共同進化

5.5 不講交情或無遠見的合作

馮·諾依曼最感興趣的是想看看自己能否給這種互動遊戲找出最理想的策略,因為乍一看來,它們在理論上幾乎是無解的。於是他提出了博弈論作為解答。位於加利福尼亞州聖塔莫妮卡市的蘭德公司是美國政府資助的智庫。那裡的研究人員發展了馮·諾依曼的工作,最後列出了四種有關相互猜測遊戲的基本變體。每一個變體各有不同的輸贏或平局的獎勵結構。這四個簡單的遊戲在技術文獻中統稱為「社會困境」,但又可以被看作是構造複雜共同進化遊戲的四塊積木。這四個基本變體是:草雞博弈、獵鹿博弈、僵局,以及囚徒困境。
這種合作不是新時代的精神至上主義。相反,如阿克塞爾羅德所說,這是一種「不講交情、無需遠見的合作」——是大自然的冷規則,適用於許多層面,並催生了自組織結構。不管你願不願意,多少都得合作。
坐在堆滿書籍的辦公室里,羅伯特·阿克塞爾羅德還沉浸在對共同進化的理解和思考中。然後他補充道:「希望我在合作進化方面的工作有助於避免世界衝突。你看過國家科學院給我的獎狀沒有,」他指著牆上的一塊牌匾說,「他們認為它有助於避免核戰爭。」儘管馮·諾依曼是發展原子彈的關鍵人物,但他並沒有將他的理論明確地應用於核軍備競賽的政治遊戲。在1957年馮·諾依曼逝世之後,軍事戰略智囊團開始利用他的博弈論分析冷戰,冷戰中兩個相互為敵的超級大國帶有共同進化關係中「強制合作」的意味。戈爾巴喬夫具有基本的共同進化洞察力。阿爾塞德羅說,「他看到,減少而不是增加坦克數量會讓蘇聯更安全。他單方面裁掉了一萬輛坦克,使得美國和歐洲更難有借口保持大規模的軍事預算,藉此全面展開了結束冷戰的進程。」
1990年,在哥本哈根尼爾斯波爾研究院工作的克里斯蒂安·林德格雷將這個共同進化實驗的玩家數擴展到一千,同時引入隨機干擾,並使這個人工共同進化過程可以繁衍到三萬世代之後。林德格雷發現,由眾多參与「囚徒困境」遊戲的愚鈍個體所組成的群體不但重現了狐狸和兔子數量的生態波動,也產生出許多其他自然現象,如寄生、自發湧現的共生共棲,以及物種間長期穩定的共存關係等,就如同一整套生態系統。林德格雷的工作讓一些生物學家興奮不已,因為在他的漫長回合博弈遊戲中出現了一個又一個的周期。每個周期的持續時間都很長;而在一個周期內,由不同策略的「物種」所形成的混合維持著非常穩定的狀態。然而,這些盛世都被一些突發、短命的不穩定插曲所打斷,於是舊的物種滅絕,新的物種生根。持新策略的物種間迅速達成新的穩定,又持續發展數千代。這個模式與從早期化石里發現的進化的常見模式相契合,該模式在進化論業界里叫做間斷平衡,或簡稱為「蹦移(punkeek)」。九_九_藏_書
鏡子上的變色龍是一個完全開放的系統。無論是蜥蜴還是玻璃,都沒有任何秘密。蓋亞的大封閉圈裡循環不斷,是因為其中所有的小循環都在不斷的共同進化溝通中互相交流。從蘇聯指令式計劃經濟的崩潰中我們了解到,公開的信息能夠保持經濟的穩定和增長。
1651年,托馬斯·霍布斯宣稱:只有在善意的中央集權幫助下才能產生合作。這一傳統政治推論曾經在幾個世紀里一直被奉為圭臬。霍布斯斷言,沒有自上而下的管理,就只會有群體自私。不管經濟體制如何,必須有強大的勢力來推行政治利他主義。然而,在美國獨立和法國革命后逐步建立起來的西方民主制度表明,民意通達的社會可以在沒有中央集權強力干預的情況下發展合作機制。個人利益也能孕育出合作。在後工業化經濟里,自發合作是常有的事情。被廣泛採用的工業標準(既有質量方面的,也有協議方面的,如110伏電壓,還有ASCII碼),以及網際網路這個世界上最大的無政府形態的興起,都使得人們更加關注孕育共同進化合作所需的必要條件。
共同進化可以看作是雙方陷入相互傳教的網路。共同進化的關係,從寄生到結盟,從本質上來講都具有信息的屬性。穩步的信息交流將它們焊接成一個單一的系統。與此同時,信息交流——無論是侮辱、還是幫助,抑或只是普通新聞——都為合作、自組織,以及雙贏結局的破土發芽開闢了園地。
將學習行為拉下神壇,是我們正在跨越的最激動人心的知識前沿之一。在一個虛擬的回旋加速器里,學習正被撞裂成為基本粒子。科學家們正在為適應、歸納、智能、進化、共同進化等事物的基本成分編目造冊,使之成為一個生命的元素周期表。學習所需的各種粒子藏身於所有遲鈍的介質當中,等待著被組裝(並往往自行組裝)成奔涌靈動的事物。
阿克塞爾羅德發起的、有14位玩家參与的「囚徒困境」循環錦標賽是在電腦上進行的。1987年,阿克塞爾羅德通過設定一套系統拓展了這個電腦遊戲。在系統里,有一小群程序玩家執行隨機產生的「囚徒困境」策略。每個隨機策略在和所有其它運行中的策略對陣一圈之後被打分,得分最高的策略在下一代的複製率最高,於是最成功的策略便得以繁衍和傳播。許多策略都是通過「捕食」其他策略來取勝的,因而,只有當獵物能存活時,這些策略才能興旺發達。這就導出了自然界荒野九*九*藏*書中俯拾皆是的生物數量呈周期性波動的機理,說明了狐狸和兔子的數量在年復一年的共同進化的循環中是如何起起落落的。兔子數量增,狐狸繁殖多;狐狸繁殖多,兔子死翹翹。但是沒有了兔子,狐狸就得餓死。狐狸數量少了,兔子數量就多了。兔子多了,狐狸也就多了,以此類推。
生物的共同進化行為也許可以用一個更好的術語來描述——共同學習,或者共同傳授也行,因為共同進化的各方在相互學習的同時也在相互傳授。(我們沒有恰當的字眼來表述同時施教與受教,但假如做到了教學相長,我們的學校教育將會得到改善。)
「草雞博弈」是供魯莽的青少年玩的遊戲。兩輛賽車朝懸崖邊奔去;后摔出來的司機是贏家。「獵鹿」是一群獵手面對的難題,他們必須合作才能把鹿殺死,如果沒有人合作的話,那麼開小差各自去攆兔子會更好些。他們是在賭合作(高回報)還是背叛(低,但是肯定有回報)嗎?「僵局」是挺無聊的遊戲,彼此背叛收益最高。最後一個「囚徒困境」最有啟發性,在1960年代末成為兩百多例社會心理學實驗的測試模型。
如果只玩一次,背叛對手是最合理的選擇。但當兩個「囚徒」一次又一次地玩,從中相互學習——也即「重複的囚徒困境」——遊戲的推演就發生了變化。你不能無視對手玩家的存在;不論是作為強制的敵手還是同夥,他都必須受到重視。這種緊密相連的共同命運與政敵之間、生意對手之間或者生態共生體之間的共同進化關係非常類似。隨著對這個簡單遊戲的研究的進一步深入,問題變成了:要想在長期內取得高分,面對「重複的囚徒困境」應該採取什麼樣的策略?還有,同無情或友善的各類玩家對壘時,該採取什麼樣的策略更容易取得成功呢?
阿克塞爾羅德注意到,作為贏家,「一報還一報」策略從不琢磨利用對手的策略——它只是以其人之道還治其人之身。在一對一的對決中,該策略並不能勝過任何一個其他策略;但在非零和遊戲中,它卻能夠在跟許多策略對抗的過程中取得最高累積分,從而奪得錦標。正如阿克塞爾羅德向「囚徒困境」的始作俑者威廉·龐德斯通指出的:「這個理念太不可思議了。下棋時怎麼可能不擊敗任何一個對手就奪得錦標呢?」但是在共同進化中——變化是響應自身而變化——不用打擊他人就能贏。企業界那些精明的首席執行官們現在也承認,在網路和結盟的時代,公司犯不著打擊他人就可以大把地賺錢。這個就是所謂的雙贏。
1980年,密歇根大學政治學教授羅伯特·阿克塞爾羅德組織了一次錦標賽,徵集了14條不同的用於「囚徒困境」的對策,以循環賽的形式看哪個對策最後勝出。最後獲勝的是一個最簡單的對策,叫做「一報還一報」,由心理學家阿納托爾·拉普伯特設計。「一報還一報」是往複型策略,它以合作回報合作,以背叛回報背叛,往往產生一輪輪合作的周期。阿克塞爾羅德發現,重複遊戲能產生一次性遊戲所不具備的「未來陰影」之效果,這種效果鼓勵合作,因為對玩家來說,用現在對他人予以的合作來換取今後他人給予的合作是一個合理的選擇。合作的閃現使阿克塞爾羅德陷入沉思:「沒有中央集權的自我主義世界需要具備什麼條件才能湧現出合作的行為?」九*九*藏*書
「囚徒困境」是由蘭德公司的梅里爾·弗勒德於1950年設計出來的。遊戲中,兩個分別關押的囚犯必須獨立決定否認還是坦白罪行。如果兩人都認罪,那麼兩人都會受到懲罰。如果兩人都否認的話,則都會被無罪釋放。但假如只有一人認罪,那麼他就會得到獎勵,而另一個則受到懲罰。合作有回報,但如果策略奏效的話,背叛也有回報。你該怎麼辦呢?
對於多數懷疑論者說來,蓋亞的麻煩在於將一個非活物的星球看作是一部「聰明的」機器。我們曾試圖將毫無生氣的計算機設計成人工學習機器,但卻遭受了挫折。因此,在行星尺度內展開頭緒紛亂的人工學習,其前景似乎挺荒謬。
但實際上我們高估了學習,把它當成一件難事,這與我們的沙文主義情節——把學習當成是人類特有的能力——不無關係。在本書中,我想要表述一種強烈的看法,即進化本身就是一種學習。因此,凡有進化(哪怕是人工進化)的地方就會有學習。
共同進化就是多種形式的學習。斯圖爾特·布蘭德在《共同進化季刊》中寫道:「沒錯,生態系統是一個完整系統,而共同進化則是一個時間意義上的完整系統。它在常態下是向前推進的、系統化的自我教育,並從不斷改正錯誤中汲取營養。如果說生態系統是在維持的話,那麼共同進化則是在學習。」
馮·諾依曼發明了與遊戲有關的數學理論。他將遊戲定義為一場利益衝突,遊戲各方都試圖預測其他方的舉動,並採取一系列的步驟,以解決衝突。1944年,他與經濟學家奧斯卡·摩根斯特恩合寫了一本書——《博弈論與經濟行為》。他察覺到,經濟具有高度共同進化和類似遊戲的特性,而他希望以簡單的遊戲動力學來闡釋它。舉例說,雞蛋的價格取決於賣方和買方彼此之間的預期猜測——我出價多少他才能夠接受,他認為我會出多少,我的出價應該比我能承受的價位低多少?令馮·諾依曼驚訝的是,這種相互欺詐、相互矇騙、效仿、映像以及「博弈」的無休止遞歸一般都能夠落實到一個明確的價格上,而不是無限糾纏下去。即使在股市上,當有成千上萬的代理在玩著相互預測的遊戲時,利益衝突的各方也能迅速達成一個還算穩定的價格。九_九_藏_書
「囚徒困境」這類遊戲,不單隻人類,任何自適應個體都可以玩。細菌,犰狳,或是計算機里的半導體器件,都可以根據各種回報機制,在眼前的穩妥收穫與未來的高風險高回報之間做出權衡。當長時間與相同的夥伴一起玩這個遊戲時,雙方既是在博弈,又是在進行某種類型的共同進化。
這些實驗得出了一個了不起的結果,令所有希望駕馭共同進化力量的人都為之矚目。這是眾神的另一條律法:在一個飾以「鏡子上的變色龍」式的疊套花環的世界里,無論你設計或演變出怎樣高妙的策略,如果你絕對服從它,為它所用,從進化的角度來看,這個策略就無法與其他具競爭力的策略相抗衡。也即是說,如何在持久戰中讓規則為你所用才是一個具競爭力的策略。另一方面,引入少許的隨機因素(如差錯、缺陷)反而能夠在共同進化的世界里締造出長久的穩定,因為這樣一來某些策略無法被輕易地「山寨」,從而能夠在相對長的時期里佔據統治地位。沒有了干擾——即出乎意料或是反常的選擇——就沒有足夠多的穩定周期來維持系統的發展,逐步升級的進化也就失去了機會。錯誤能使共同進化關係不致因為膠著太緊而陷入自沉的漩渦,從而保持共同進化的系統順流前行。向你的錯誤致敬吧。
在電腦中進行的這些共同進化遊戲還提供了另外的教益。零和與非零和遊戲的區別是少數幾個滲透到大眾文化中的博弈論理念之一。象棋、選舉、賽跑和撲克是零和遊戲:贏家的收益取自輸家的損失。自然界的荒野、經濟、思維意識、網路則屬於非零和遊戲:熊的存在並不意味狼獾會失敗。共同進化中的衝突環環相扣、彼此關聯,意味著整體收益可以惠及(有時殃及)所有成員。阿九九藏書克塞爾羅德告訴我,「來自博弈論最早也是最重要的洞見之一就是,非零和遊戲的戰略內涵與零和遊戲的戰略內涵截然不同。零和遊戲中對他人的任何傷害都對你有好處。在非零和遊戲中,你們可能共榮,也可能同衰。我認為,人們常用零和遊戲的觀點看世界,其實他們本不該這樣。他們常說:『我比別人做得好,所以我就該發達。』而在非零和遊戲里,儘管你比別人做得好,你也可能和他一樣潦倒。」
一個共同進化關係中的施與受——同時施教與受教——使許多科學家想到了玩遊戲。簡單的兒童遊戲如「哪只手裡有鋼鏰兒?」具有「鏡子上的變色龍」般的遞歸邏輯。藏鋼鏰兒的人進入這樣一個無止境的過程:「我剛才把鋼鏰兒藏在右手裡,那麼現在猜的人會認為它在我的左手,因此,我要把它移到右手。但她也知道我知道她會怎麼想,於是,我還是把它留在左手裡。」
由於猜的人的思考過程也是如此,雙方就構成了一個相互預測對方意圖的遊戲。「哪只手裡有鋼鏰兒」的謎題和「鏡子上的變色龍是什麼顏色」的謎題相關聯。從這類簡單的規則衍生出的無限複雜性令約翰·馮·諾依曼非常感興趣。在二十世紀四十年代早期,這位數學家就研發出用於計算機的可編程邏輯,並同維納和貝特森一起開闢了控制論的新領域。
對於「偽神們」來說,從共同進化中獲得的最有用的教訓就是,在共同進化的世界里,控制和保密只能幫倒忙。你無法控制,而開誠布公比遮遮掩掩效果更好。「在零和遊戲中你總想隱藏自己的策略,」阿克塞爾羅德說。「但在非零和遊戲中,你可能會將策略公之於眾,這樣一來,別的玩家就必須適應它。」戈爾巴喬夫的策略之所以有效,是因為他公開實施了這個策略;如果只是秘密地單方面削減武器則會一事無成。
在我們剛剛邁入的網路時代中,頻繁的交流正在創造日益成熟的人工世界,為共同進化、自發的自組織以及雙贏合作的湧現而準備著。在這個時代,開放者贏,中央控制者輸,而穩定,則是由持續的誤差所保證的一種永久臨跌狀態。
每一個複雜的自適應組織都面臨著基本的權衡。生物必須在完善現有技能、特質(練腿力以便跑得更快)與嘗試新特質(翅膀)之間作取捨。它不可能同時做所有的事情。這種每天都會碰到的難題便屬於在開發和利用之間作權衡。阿克塞爾羅德用醫院作了一個類比:「一般情況下你可以想見試用某種新葯比儘可能發掘已有成藥的療效回報來得低。但假如你給所有病人用的都是目前最好的成藥,你就永遠無法驗證新葯的療效。從病人個人角度來講最好不要試用新葯。但從社會集合體的角度出發,做實驗是必要的。」開發(未來收益)與利用(目前穩贏的籌碼)之比應該是多少,這是醫院不得不作的博弈。生命有機體為了跟上環境的變化,在決定應該在多大程度上進行變異和創新時,也會作出類似的權衡。當海量的生物都在做著類似的權衡並且互相影響時,就形成一個共同進化的博弈遊戲。
雙贏是共同進化模式下生命所演繹的故事。