0%
第一部分 大數據時代的思維變革 03 更好:不是因果關係,而是相關關係

第一部分 大數據時代的思維變革

03 更好:不是因果關係,而是相關關係

在小數據世界中,相關關係也是有用的,但在大數據的背景下,相關關係大放異彩。通過應用相關關係,我們可以比以前更容易、更快捷、更清楚地分析事物。
當收集、存儲和分析數據的成本比較高的時候,應該適當地丟棄一些數據。安大略理工大學的卡羅琳·麥格雷戈(Carolyn McGregor)博士和一支研究隊伍與IBM一起和很多醫院合作,用一個軟體來監測處理即時的病人信息,然後把它用於早產兒的病情診斷。系統會監控16個不同地方的數據,比如心率、呼吸、體溫、血壓和血氧含量,這些數據可以達到每秒鐘1260個數據點之多。
1997年,24歲的格雷格·林登(Greg Linden)在華盛頓大學就讀博士,研究人工智慧,閑暇之餘,他會在網上賣書。他的網店運營才兩年就已經生意興隆。他回憶說:「我愛賣書和知識,幫助人們找到下一個他們可能會感興趣的知識點。」他註冊的這家網店就是日後大獲成功的亞馬遜。後來林登被亞馬遜聘為軟體工程師,以確保網站的正常運行。
這個例子說明了數據正在以新的方式幫助我們解決現實生活中的難題。
奈飛公司是一個在線電影租賃公司,它四分之三的新訂單都來自推薦系統。在亞馬遜的帶領下,成千上萬的網站可以推薦產品、內容和朋友以及很多相關的信息,但並不知道為什麼人們會對這些信息感興趣。
通過給我們找到一個現象的良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。如果A和B經常一起發生,我們只需要注意到B發生了,就可以預測A也發生了。這有助於我們捕捉可能和A一起發生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什麼。當然,相關關係是無法預知未來的,他們只能預測可能發生的事情。但是,這已經極其珍貴了。
當相關關係變得更複雜時,一切就更混亂了。比如,各地麻疹疫苗接種率的差別與人們在醫療保健上的花費似乎有關聯。但是,最近哈佛與麻省理工的聯合研究小組發現,這種關聯不是簡單的線性關係,而是一個複雜的曲線圖。和預期相同的是,隨著人們在醫療上花費的增多,麻疹疫苗接種率的差別會變小;但令人驚訝的是,當增加到一定程度時,這種差別又會變大。發現這種關係對公共衛生官員來說非常重要,但是普通的線性關係分析師是無法捕捉到這個重要信息的。
最終,最重要的因素是這些電纜的使用年限和有沒有出現過問題。諷刺的是,這個發現非常有意義,因為聯合愛迪生電力公司的高層們可以在此基礎上,迅速進行沙井蓋事故可能性排序。但是,這些因素看起來會不會太過明顯了?
為紐約提供電力支持的聯合愛迪生電力公司(Con Edison)每年都會對沙井蓋進行常規檢查和維修。過去,這完全看運氣,如果工作人員檢查到的正好是即將爆炸的就最好了,因為沙井蓋爆炸威力可不小。2007年,聯合愛迪生電力公司向哥倫比亞大學的統計學家求助,希望他們通過對一些歷史數據的研究,比如說通過研究以前出現過的問題、基礎設施之間的聯繫,進而預測出可能會出現問題並且需要維修的沙井蓋。如此一來,它們就只要把自己的人力物力集中在維修這些沙井蓋上。
除了僅僅依靠相關關係,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當的關聯物。這些理論就是一些抽象的觀點,關於事物是怎樣運作的。然後收集與關聯物相關的數據來進行相關關係分析,以證明這個關聯物是否真的合適。如果不合適,人們通常會固執地再次嘗試,因為擔心可能是數據收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反覆試驗促進了學科的發展。但是這種發展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關聯物的過程中犯錯誤。總之,這是一個煩瑣的過程,只適用於小數據時代。

關聯物,預測的關鍵

大數據的力量

通過利用相關關係,保險公司可以在每人身上節省125美元,然而這個純數據分析法只需要花費5美元。

同樣的方法也可以運用在人身上。醫院使用醫療設備在病人身上裝上各種管線同時得到大量的數據。心電圖每秒鐘就能產生1000個讀數。但是只有部分的數據是被保存使用的,大部分都束之高閣了,即使這些數據都能在一定程度上表現出病人的情況。當與其他病人的數據一起考慮的時候,它們就能顯現出哪些治療方法是有效的。
所以有時候,通過代理取得數據信息比自己去操作煩瑣的程序要便宜得多。同時還有另一個徵信機構出售「支付能力指數」和「可支配支出指數」,這些指數是用來預測一個人的支付能力的。
傑夫·貝索斯(Jeff Bezos),亞馬遜公司的創始人以及總裁,決定嘗試一個極富創造力的想法:根據客戶個人以前的購物喜好,為其推薦具體的書籍。從一開始,亞馬遜已從每一個客戶身上捕獲了大量的數據。比如說,他們購買了什麼書籍?哪些書他們只瀏覽卻沒有購買?他們瀏覽了多久?哪些書是他們一起購買的?
當然,還有一種不同的情況也逐漸受到了人們的重視。在小數據時代,由於計算機能力的不足,大部分相關關係分析僅限於尋求線性關係。這個情況隨著數據的增加肯定會發生改變。事實上,實際情況遠比我們所想象的要複雜。經過複雜的分析,我們能夠發現數據的「非線性關係」。

改變,從操作方式開始

大數據的力量

證明一個人的收入狀況要花費10美元左右,但是益百利的預測結果售價不足1美元。

因為估算可以提前進行,所以推薦系統快如閃電,而且適用於各種各樣的產品。因此,當亞馬遜跨界銷售除書以外的其他商品時,也可以對電影或烤麵包機這些產品進行推薦。由於系統中使用了所有的數據,推薦會更理想。林登回憶道:「在組裡有句玩笑話,說的是如果系統運作良好,亞馬遜應該只推薦你一本書,而這本書就是你將要買的下一本書。」

大數據先鋒

FICO,「我們知道你明天會做什麼」

一個人的信用常被用來預測他/她的個人行為。美國個人消費信用評估公司,也被稱為FICO,在20世紀50年代發明了信用分。2011年,FICO提出了「遵從醫囑評分」——它分析一系列的變數來確定這個人是否會按時吃藥,包括一些看起來有點怪異的變數。比方說,一個人在某地居住了多久,這個人結婚了沒有,他多久換一個工作以及他是否有私家車。這個評分會幫助醫療機構節省開支,因為它們會知道哪些人需要得到它們的用藥提醒。有私家車和使用抗生素並沒有因果關係,這隻是一種相關關係。但是這就足夠激發FICO的首席執行官揚言,「我們知道你明天會做什麼。」這是他在2011年的投資人大會上說的。

可是,我們必須非常認真。相關關係很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關係考慮進來,這些視角就有可能被蒙蔽掉。
因果關係還是有用的,但是它將不再被看成是意義來源的基礎。在大數據時代,即使很多情況下,我們依然指望用因果關係來說明我們所發現的相互聯繫,但是,我們知道因果關係只是一種特殊的相關關係。相反,大數據推動了相關關係分析。相關關read.99csw.com係分析通常情況下能取代因果關係起作用,即使不可取代的情況下,它也能指導因果關係起作用。曼哈頓沙井蓋(即下水道的修檢口)的爆炸就是一個很好的例子。
例如,Kaggle,一家為所有人提供數據挖掘競賽平台的公司,舉辦了關於二手車的質量競賽。二手車經銷商將二手車數據提供給參加比賽的統計學家,統計學家們用這些數據建立一個演算法系統來預測經銷商拍賣的哪些車有可能出現質量問題。相關關係分析表明,橙色的車有質量問題的可能性只有其他車的一半。
首先,我們的直接願望就是了解因果關係。即使無因果聯繫存在,我們也還是會假定其存在。研究證明,這隻是我們的認知方式,與每個人的文化背景、生長環境以及教育水平是無關的。當我們看到兩件事情接連發生的時候,我們會習慣性地從因果關係的角度來看待它們。看看下面的三句話:「弗雷德的父母遲到了;供應商快到了;弗雷德生氣了。」
在這個例子中,大家都認為是注射疫苗救了梅斯特一命。但這裏卻有兩個因果關係值得商榷。第一個是疫苗和狂犬病毒之間的因果關係,第二個就是被帶有狂犬病毒的狗咬和患狂犬病之間的因果關係。即便是說疫苗能夠醫好狂犬病,第二個因果關係也只適用於極少數情況。
假想通常來自自然理論或社會科學,它們也是幫助我們解釋和預測周遭世界的基礎。隨著由假想時代到數據時代的過渡,我們也很可能認為我們不再需要理論了。
相關關係的運用更加廣泛了。中英人壽保險有限公司(Aviva)是一家大型保險公司,他們想利用信用報告和顧客市場分析數據來作為部分申請人的血液和尿液分析的關聯物。這些分析結果被用來找出更有可能患高血壓、糖尿病和抑鬱症的人。其中用來分析的數據包括好幾百種生活方式的數據,比如愛好、常瀏覽的網站、常看的節目、收入估計等。
如今,據說亞馬遜銷售額的三分之一都是來自於它的個性化推薦系統。有了它,亞馬遜不僅使很多大型書店和音樂唱片商店歇業,而且當地數百個自認為有自己風格的書商也難免受轉型之風的影響。事實上,林登的工作徹底改變了電子商務,現在幾乎每個人都在使用電子商務。

大數據先鋒

沃爾瑪,請把蛋撻與颶風用品擺在一起

沃爾瑪是世界上最大的零售商,擁有超過200萬的員工,銷售額約4500億美元,比大多數國家的國內生產總值還多。在網路帶來巨多數據之前,沃爾瑪在美國企業中擁有的數據資源應該是最多的。

在20世紀90年代,零售鏈通過把每一個產品記錄為數據而徹底改變了零售行業。沃爾瑪可以讓供應商監控銷售速率、數量以及存貨的情況。沃爾瑪通過打造透明度來迫使供應商照顧好自己的物流。在許多情況下,沃爾瑪不接受產品的「所有權」,除非產品已經開始銷售,這樣就避免了存貨的風險也降低了成本。實際上,沃爾瑪運用這些數據使其成為了世界上最大的「寄售店」。

倘若得到正確分析,歷史數據能夠解釋什麼呢?零售商與天睿資訊(Teradata)專業的數字統計員一起研究發現了有趣的相關關係。2004年,沃爾瑪對歷史交易記錄這個龐大的資料庫進行了觀察,這個資料庫記錄的不僅包括每一個顧客的購物清單以及消費額,還包括購物籃中的物品、具體購買時間,甚至購買當日的天氣。

沃爾瑪公司注意到,每當在季節性颶風來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當季節性風暴來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便行色匆匆的顧客從而增加銷量。

2008年,《連線》雜誌主編克里斯·安德森(Chris Anderson)就指出:「數據爆炸使得科學的研究方法都落伍了。」後來,他又在《拍位元組時代》(The Petabyte Age)的封面故事中講到,大量的數據從某種程度上意味著「理論的終結」。安德森也表示,用一系列的因果關係來驗證各種猜想的傳統研究範式已經不實用了,如今它已經被無需理論指導的純粹的相關關係研究所取代。
相關關係分析本身意義重大,同時它也為研究因果關係奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析,如果存在因果關係的話,我們再進一步找出原因。這種便捷的機制通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯繫中找到一些重要的變數,這些變數可以用到驗證因果關係的實驗中去。
每年,因沙井蓋內部失火,紐約每年有很多沙井蓋會發生爆炸。重達300磅的沙井蓋在轟然塌在地上之前可以衝出幾層樓高。這可不是什麼好事。
亞馬遜的技術含量不僅體現在其工作人員上。雖然亞馬遜的故事大多數人都耳熟能詳,但只有少數人知道它的內容最初是由人工親自完成的。當時,它聘請了一個由20多名書評家和編輯組成的團隊,他們寫書評、推薦新書,挑選非常有特色的新書標題放在亞馬遜的網頁上。這個團隊創立了「亞馬遜的聲音」這個版塊,成為當時公司這頂皇冠上的一顆寶石,是其競爭優勢的重要來源。《華爾街日報》的一篇文章中熱情地稱他們為全美最有影響力的書評家,因為他們使得書籍銷量猛增。
在小數據時代,相關關係分析和因果分析都不容易,都耗費巨大,都要從建立假設開始。然後我們會進行實驗——這個假設要麼被證實要麼被推翻。但由於兩者都始於假設,這些分析就都有受偏見影響的可能,而且極易導致錯誤。與此同時,用來做相關關係分析的數據很難得到,收集這些數據時也耗資巨大。現今,可用的數據如此之多,也就不存在這些難題了。
卡尼曼指出,平時生活中,由於惰性,我們很少慢條斯理地思考問題。所以快速思維模式就佔據了上風。因此,我們會經常臆想出一些因果關係,最終導致了對世界的錯誤理解。
一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什麼地方出了毛病。通過儘早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物並監控它,我們就能預測未來。
【大數據先鋒】
沃爾瑪,請把蛋撻與颶風用品擺在一起
FICO,「我們知道你明天會做什麼」
美國折扣零售商塔吉特與懷孕預測
UPS與汽車修理預測
大數據預測早產兒病情
幸福感的非線性關係
二手車質量預測
紐約大型沙井蓋爆炸預測
格雷格·林登很快就找到了一個解決方案。他意識到,推薦系統實際上並沒有必要把顧客與其他顧客進行對比,這樣做其實在技術上也比較煩瑣。它需要做的是找到產品之間的關聯性。1998年,林登和他的同事申請了著名的「item-to-item」協同過濾技術的專利。方法的轉變使技術發生了翻天覆地的變化。九_九_藏_書
不像因果關係,證明相關關係的實驗耗資少,費時也少。與之相比,分析相關關係,我們既有數學方法,也有統計學方法,同時,數字工具也能幫我們準確地找出相關關係。

大數據洞察

「理論的終結」似乎暗示著,儘管理論仍存在於像物理、化學這樣的學科里,但大數據分析不需要成形的概念。這實在荒謬。

在社會環境下尋找關聯物只是大數據分析法採取的一種方式。同樣有用的一種方法是,通過找出新種類數據之間的相互聯繫來解決日常需要。比方說,一種稱為預測分析法的方法就被廣泛地應用於商業領域,它可以預測事件的發生。這可以指一個能發現可能的流行歌曲的演算法系統——音樂界廣泛採用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機器失效和建築倒塌的方法。現在,在機器、發動機和橋樑等基礎設施上放置感測器變得越來越平常了,這些感測器被用來記錄散發的熱量、振幅、承壓和發出的聲音等。

大數據,改變人類探索世界的方法

驚人的是,麥格雷戈博士的大數據分析法能發現一些與醫生的傳統看法相違背的相關關係。比如說她發現,穩定的生命體征表明病人發生了嚴重的感染。這很奇怪,因為醫生一般認為惡化的疼痛才是全面感染的徵兆。你可以想象,以前醫生都是下班的時候看看嬰兒床旁邊的記錄本,覺得病情穩定了,也就下班回家了。只有半夜護士的緊急電話才讓他們知道大事不好了,他們的直覺犯了大錯誤。數據表明,早產兒的穩定不但不是病情好轉的標誌,反而是暴風雨前的寧靜,就像是身體要它的器官做好抵抗困難的準備。但是我們也不太確定,我們不知道具體原因,只是看到了相關關係。這需要海量的數據並且找出隱含的相關性才能發現。但是,大數據挽救了很多生命,這是毫無疑問的。
魯丁希望儘快找到整理這些數據的便捷方法。她們將雜亂的數據整理好給機器處理,由此發現了大型沙井蓋爆炸的106種預警情況。在布朗克斯(Bronx)的電網測試中,他們對2008年中期之前的數據都進行了分析,並利用這些數據預測了2009年會出現問題的沙井蓋。預測效果非常好,在他們列出的前10%的高危沙井蓋名單里,有44%的沙井蓋都發生了嚴重的事故。
馬上,我們就陷入了各種各樣謎一樣的假設中。若要找出相關關係,我們可以用數學方法,但如果是因果關係的話,這卻是行不通的。所以,我們沒必要一定要找出相關關係背後的原因,當我們知道了「是什麼」的時候,「為什麼」其實沒那麼重要了,否則就會催生一些滑稽的想法。比方說上面提到的例子里,我們是不是應該建議車主把車漆成橙色呢?畢竟,這樣就說明車子的質量更過硬啊!
我們讀到這裏時,可能立馬就會想到弗雷德生氣並不是因為供應商快到了,而是他父母遲到了的緣故。實際上,我們也不知道到底是什麼情況。即便如此,我們還是不禁認為這些假設的因果關係是成立的。
在小數據時代,我們會假想世界是怎麼運作的,然後通過收集和分析數據來驗證這種假想。在不久的將來,我們會在大數據的指導下探索世界,不再受限於各種假想。我們的研究始於數據,也因為數據我們發現了以前不曾發現的聯繫。

大數據洞察

當我們說人類是通過因果關係了解世界時,我們指的是我們在理解和解釋世界各種現象時使用的兩種基本方法:一種是通過快速、虛幻的因果關係,還有一種就是通過緩慢、有條不紊的因果關係。大數據會改變這兩種基本方法在我們認識世界時所扮演的角色。

日常生活中,我們習慣性地用因果關係來考慮事情,所以會認為,因果聯繫是淺顯易尋的。但事實卻並非如此。與相關關係不一樣,即使用數學這種比較直接的方式,因果聯繫也很難被輕易證明。我們也不能用標準的等式將因果關係表達清楚。因此,即使我們慢慢思考,想要發現因果關係也是很困難的。因為我們已經習慣了信息的匱乏,故此亦習慣了在少量數據的基礎上進行推理思考,即使大部分時候很多因素都會削弱特定的因果關係。
Aviva的預測模型是由德勤諮詢公司發明的,公司覺得這可以用來發現健康隱患。其他保險公司如英國保誠保險有限公司(Prudentia)和美國國際集團(AIG)都承認它們也在考慮類似的方法。好處就是,申請者不再需要提供血液和尿液樣本了,因為大家都不太喜歡做這個事情。
好吧,既是又不是。因為一方面,就像數學家鄧肯·沃茨(Duncan Watts)說的,「一旦你知道了結果,一切都很容易。」但是另一方面,我們不能忘記最開始的時候我們可是找出了106種預警情況。如何權衡以及優先修理成千上萬個沙井蓋中的哪一個,這不是那麼容易做出決定的,因為各種各樣的因素加入到了這個龐大的資料庫中,而且這些數據記錄的方式使得它本來就不適合處理分析。
林登做了一個關於評論家所創造的銷售業績和計算機生成內容所產生的銷售業績的對比測試,結果他發現兩者之間的業績相差甚遠。他解釋說,通過數據推薦產品所增加的銷售遠遠超過書評家的貢獻。計算機可能不知道為什麼喜歡海明威作品的客戶會購買菲茨傑拉德的書。但是這似乎並不重要,重要的是銷量。最後,編輯們看到了銷售額分析,亞馬遜也不得不放棄每次的在線評論,最終書評組被解散了。林登回憶說:「書評團隊被打敗、被解散,我感到非常難過。但是,數據沒有說謊,人工評論的成本是非常高的。」
就拿狂犬疫苗這個例子來說,1885年7月6日,法國化學家路易·巴斯德(Louis Pasteur)接診了一個9歲的小孩約瑟夫·梅斯特(Joseph Meister),他被帶有狂犬病毒的狗咬了。那時,巴斯德剛剛研發出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母就懇求巴斯德給他們的兒子注射一針。巴斯德做了,梅斯特活了下來。發布會上,巴斯德因為把一個小男孩從死神手中救出而大受褒獎。
與常識相反,經常憑藉直覺而來的因果關係並沒有幫助我們加深對這個世界的理解。很多時候,這種認知捷徑只是給了我們一種自己已經理解的錯覺,但實際上,我們因此完全陷入了理解誤區之中。就像採樣是我們無法處理全部數據時的捷徑一樣,這種找因果關係的方法也是我們大腦用來避免辛苦思考的捷徑。
近年來,科學家一直在試圖減少這些實驗的花費,比如說,通過巧妙地結合相似的調查,做成「類似實驗」。這樣一來,因果關係的調查成本就降低了,但還是很難與相關關係體現的優越性相抗衡。還有,正如我們之前提到的,在專家進行因果關係的調查時,相關關係分析本來就會起到幫助的作用。
作為第一提出問題的人,安德森應該獲得掌聲——儘管他的答案不怎麼樣!大數據絕不九_九_藏_書會叫囂「理論已死」,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的制度將面臨挑戰。
魯丁和她的同事必須在工作中使用所有的數據,而不能是樣本,因為說不定,這成千上萬個沙井蓋中的某一個就是一個定時炸彈,所以只有使用「樣本=總體」的方法才可以。雖然找出因果關係也是不錯的,但是這可能需要一個世紀之久,而且還不一定找得對。要完成這項任務,比較好的辦法就是,找出它們之間的相關關係。相比「為什麼」,她更關心「是什麼」。但是她也知道當面對聯合愛迪生電力公司高層的時候,她需要證明選擇方案的正確性。預測可能是由機器完成的,但是消費者是人類,而人就習慣性地想通過找出原因來理解事物。
在哲學界,關於因果關係是否存在的爭論已經持續了幾個世紀。畢竟,如果凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環往複,那麼就不存在人的自由意志這一說了——所有的生命軌跡都只是受因果關係的控制了。因此,對於因果關係在世間所扮演的角色,哲學家們爭論不休,有時他們認為,這是與自由意志相對立的。當然,關於理論的爭辯並不是我們要研究的重點。

林登與亞馬遜推薦系統

普林斯頓大學心理學專家,同時也是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼(Daniel Kahneman)就是用這個例子證明了人有兩種思維模式。第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得出結果;另一種是比較費力的慢性思維,對於特定的問題,就是需要考慮到位。
在小數據時代,很難證明由直覺而來的因果聯繫是錯誤的。現在,情況不一樣了。將來,大數據之間的相關關係,將經常會用來證明直覺的因果聯繫是錯誤的。最終也能表明,統計關係也不蘊含多少真實的因果關係。總之,我們的快速思維模式將會遭受各種各樣的現實考驗。
首先就是關於我們怎麼收集數據。我們會不會僅僅看數據收集的方便程度來決定呢?或者看數據收集的成本?我們做這些決定的時候就被理論所影響著,而就如達納·博伊德(Danah Boyd)和凱特·克勞福德(Kate Crawford)說的,我們的選擇一定程度上決定了結果。畢竟,谷歌是用檢索詞來預測流感而不是鞋碼。同樣,我們在分析數據的時候,也依賴於理論來選擇我們使用的工具。最後,我們解讀研究結果的時候同樣會使用理論。大數據時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數據分析的方方面面。
在明顯感染癥狀出現的24小時之前,系統就能監測到早產兒細微的身體變化發出的感染信號。麥格雷戈博士說:「你無法用肉眼看到,但計算機可以看到。」這個系統依賴的是相關關係,而不是因果關係。它告訴你的是會發生什麼,而不是為什麼發生。這正是這個系統的價值。提早知道病情,醫生就能夠提早治療,也能更早地知道某種療法是否有效,這一切都有利於病人的康復。所以,未來這個系統估計會應用到所有病人身上。這個系統可能不會自己做決定,但是它已經做到了機器能做到的最好,那就是幫助人類做到最好。

大數據洞察

在大多數情況下,一旦我們完成了對大數據的相關關係分析,而又不再滿足於僅僅知道「是什麼」時,我們就會繼續向更深層次研究因果關係,找出背後的「為什麼」。

令人欣喜的是,為了更好地了解世界,我們會因此更加努力地思考。但是,即使是我們用來發現因果關係的第二種思維方式——慢性思維,也將因為大數據之間的相關關係迎來大的改變。
為了支撐自己的觀點,安德森闡述了量子物理學已變成一門純理論學科的原因,就是因為實驗複雜、耗費多而且不可行。他潛在的觀點就是,量子物理學的理論已經脫離實際。他提到了谷歌的搜索引擎和基因排序工程,指出:「現在已經是一個有海量數據的時代,應用數學已經取代了其他的所有學科工具。而且只要數據足夠,就能說明問題。如果你有一拍位元組的數據,只要掌握了這些數據之間的相關關係,一切就都迎刃而解了。」

大數據先鋒

幸福的非線性關係

多年來,經濟學家和政治家一直錯誤地認為收入水平和幸福感是成正比的。我們從數據圖表上可以看到,雖然統計工具呈現的是一種線性關係,但事實上,它們之間存在一種更複雜的動態關係:對於收入水平在1萬美元以下的人來說,一旦收入增加,幸福感會隨之提升;但對於收入水平在1萬美元以上的人來說,幸福感並不會隨著收入水平提高而提升。如果能發現這層關係,我們看到的就應該是一條曲線,而不是統計工具分析出來的直線。

這個發現對決策者來說非常重要。如果只看到線性關係的話,那麼政策重心應完全放在增加收入上,因為這樣才能增加全民的幸福感。而一旦察覺到這種非線性關係,策略的重心就會變成提高低收入人群的收入水平,因為這樣明顯更划算。

我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。因此,我們也不需要建立這樣一個假設,關於哪些詞條可以表示流感在何時何地傳播;我們不需要了解航空公司怎樣給機票定價;我們不需要知道沃爾瑪的顧客的烹飪喜好。取而代之的是,我們可以對大數據進行相關關係分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機票的價格是否會飛漲,哪些食物是颶風期間待在家裡的人最想吃的。我們用數據驅動的關於大數據的相關關係分析法,取代了基於假想的易出錯的方法。大數據的相關關係分析法更準確、更快,而且不易受偏見的影響。
在大數據時代,通過建立在人的偏見基礎上的關聯物監測法已經不再可行,因為資料庫太大而且需要考慮的領域太複雜。幸運的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。我們現在擁有如此多的數據,這麼好的機器計算能力,因而不再需要人工選擇一個關聯物或者一小部分相似數據來逐一分析了。複雜的機器分析能為我們辨認出誰是最好的代理,就像在谷歌流感趨勢中,計算機把檢索詞條在5億個數學模型上進行測試之後,準確地找出了哪些是與流感傳播最相關的詞條。
父母經常告訴孩子,天冷時不戴帽子和手套就會感冒。然而,事實上,感冒和穿戴之間卻沒有直接的聯繫。有時,我們在某個餐館用餐後生病了的話,我們就會自然而然地覺得這是餐館食物的問題,以後可能就不再去這家餐館了。事實上,我們肚子痛也許是因為其他的傳染途徑,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸於任何我們能在第一時間想起來的因果關係,因此,這經常導致我們做出錯誤的決定。
這篇文章引發了激烈的爭論,雖然安德森本人很快就意識到自己的言辭過於激烈了,但是他的觀點確實值得深思。安德森的核心思想是,直到目前為止,我們一直都是把理論應用到實踐中來分析和理解世界,而如今處在大數九九藏書據時代,我們不再需要理論了,只要關注數據就足夠了。這就意味著所有的普遍規則都不重要了,比方說世界的運作、人類的行為、顧客買什麼、東西什麼時候會壞等。如今,重要的就是數據分析,它可以揭示一切問題。
現在,公司必須決定什麼應該出現在網站上。是亞馬遜內部書評家寫的個人建議和評論,還是由機器生成的個性化推薦和暢銷書排行榜?批評者說了什麼,或者是顧客的點擊意味著什麼?從字面上來講,這是一場人與滑鼠的戰爭。

大數據先鋒

UPS與汽車修理預測

UPS國際快遞公司從2000年就開始使用預測性分析來監測自己全美60000輛車規模的車隊,這樣就能及時地進行防禦性的修理。如果車在路上拋錨損失會非常大,因為那樣就需要再派一輛車,會造成延誤和再裝載的負擔,並消耗大量的人力物力,所以以前UPS每兩三年就會對車輛的零件進行定時更換。但這種方法不太有效,因為有的零件並沒有什麼毛病就被換掉了。通過監測車輛的各個部位,UPS如今只需要更換需要更換的零件,從而節省了好幾百萬美元。有一次,監測系統甚至幫助UPS發現了一個新車的一個零件有問題,因此免除了可能會造成的困擾。

大數據洞察

相關關係的核心是量化兩個數據值之間的數理關係。相關關係強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關係,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區就有更多的人患了流感。

相反,相關關係弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。例如,我們可以尋找關於個人的鞋碼和幸福的相關關係,但會發現它們幾乎扯不上什麼關係。

知道「是什麼」就夠了,沒必要知道「為什麼」。在大數據時代,我們不必非得知道現象背後的原因,而是要讓數據自己「發聲」。

「是什麼」,而不是「為什麼」

大數據時代將要釋放出的巨大價值使得我們選擇大數據的理念和方法不再是一種權衡,而是通往未來的必然改變。但是在我們到達目的地之前,我們有必要了解怎樣才能到達。高科技行業里的很多人認為是依靠新的工具,從高速晶元到高效軟體等。當然,這可以理解為因為他們自己是工具創造者。這些問題固然重要,但不是我們需要考慮的問題。大數據趨勢的深層原因,就是海量數據的存在以及越來越多的事物是以數據形式存在的,這也是我們下一章要談論的內容。
客戶的信息數據量非常大,所以亞馬遜必須先用傳統的方法對其進行處理,通過樣本分析找到客戶之間的相似性。但這些推薦信息是非常原始的,就如同你在波蘭購買一本書,會被東歐其他地區的價格水平搞得暈頭轉向,或者在買一件嬰兒用品時,會被淹沒在一堆差不多的嬰兒用品中一樣。詹姆斯·馬庫斯(James Marcus)回憶說:「推薦信息往往為你提供與你以前購買物品有微小差異的產品,並且循環往複。」詹姆斯·馬庫斯從1996年到2001年都是亞馬遜的書評家,在他的回憶錄《亞馬遜》(Amazonia)里,他說道:「那種感覺就像你和一群腦殘在一起逛書店。」
相關關係通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。當然,即使是很強的相關關係也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。如實證學家納西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所言,我們可能只是「被隨機性所愚弄」而已。相關關係沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關係強,一個相關鏈接成功的概率是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。
當我們讀到這裏的時候,不禁也會思考其中的原因。難道是因為橙色車的車主更愛車,所以車被保護得更好嗎?或是這種顏色的車子在製造方面更精良些嗎?還是因為橙色的車更顯眼、出車禍的概率更小,所以轉手的時候,各方面的性能保持得更好?
因此,與相關關係一樣,因果關係被完全證實的可能性幾乎是沒有的,我們只能說,某兩者之間很有可能存在因果關係。但兩者之間又有不同,證明因果關係的實驗要麼不切實際,要麼違背社會倫理道德。比方說,我們怎麼從5億詞條中找出和流感傳播最相關的呢?我們難道真能為了找出被咬和患病之間的因果關係而置成百上千的病人的生命于不顧嗎?因為實驗會要求把部分病人當成未被咬的「控制組」成員來對待,但是就算給這些病人打了疫苗,我們又能保證萬無一失嗎?而且就算這些實驗可以操作,操作成本也非常的昂貴。
不過,科學家已經克服了用實驗來證明因果關係的難題。實驗是通過是否有誘因這兩種情況,分別來觀察所產生的結果是不是和真實情況相符,如果相符就說明確實存在因果關係。這個衡量假說的驗證情況控制得越嚴格,你就會發現因果關係越有可能是真實存在的。
另一個徵信機構,益百利(Experian)有一種服務,可以根據個人的信用卡交易記錄預測個人的收入情況。通過分析公司擁有的信用卡歷史記錄資料庫和美國國稅局的匿名稅收數據,益百利能夠得出評分結果。
乍看這些數據的時候,我們從未想過能從這些未經處理的數據中找出想要的信息。我列印了一個關於所有電纜的表格。如果把這個表格捲起來的話,除非你在地上拖,不然你絕對提不起它來。而我們需要處理的就是這麼多沒有處理過的數據。只有理解了這些數據,才能從中淘金,並傾己所有創建一個好的預測模型。
知道人們為什麼對這些信息感興趣可能是有用的,但這個問題目前並不是很重要。但是,知道「是什麼」可以創造點擊率,這種洞察力足以重塑很多行業,不僅僅只是電子商務。所有行業中的銷售人員早就被告知,他們需要了解是什麼讓客戶做出了選擇,要把握客戶做決定背後的真正原因,因此專業技能和多年的經驗受到高度重視。大數據卻顯示,還有另外一個在某些方面更有用的方法。亞馬遜的推薦系統梳理出了有趣的相關關係,但不知道背後的原因。知道是什麼就夠了,沒必要知道為什麼。
負責這個項目的統計學家辛西亞·魯丁(Cynthia Rudin)回憶道:
網路分析行業的出現就是一個最明顯的例子。多虧了它,讓描繪、測量、計算各節點之間的關係變成了可能,我們可以從Facebook上認識更多的朋友,還可以知道法庭上的一些判決的先例,以及誰給誰打了電話。總之,這些工具為回答非因果關係及經驗性的問題提供了新的途徑。

大數據洞察

我們需要改變我們的操作方式,使用我們能收集到的所有數據,而不僅僅是使用樣本。我們不能再把精確性當成重心,我們需要接受混亂和錯誤的存在。另外,我們應該側重於分析相關關係,而不再尋求每個預測背後的原因。

這聽起來似乎有點違背常https://read•99csw•com理。畢竟,人們都希望通過因果關係來了解這個世界。我們也相信,只要仔細觀察,就會發現萬事萬物皆有因緣。了解事情的起因難道不是我們最大的願望嗎?
大數據是在理論的基礎上形成的。比方說,大數據分析就用到了統計和數學理論,有時候也會用到計算機科學理論。是的,這不是關於像地心引力這樣特定現象的產生原因的理論,但是無論如何這依然是理論。而且如我們所見,建立在這些理論上的大數據分析模式是實現大數據預測能力的重要因素。事實上,就是因為不受限於傳統的思維模式和特定領域里隱含的固有偏見,大數據才能為我們提供如此多新的深刻洞見。
建立在相關關係分析法基礎上的預測是大數據的核心。這種預測發生的頻率非常高,以至於我們經常忽略了它的創新性。當然,它的應用會越來越多。
在大數據時代來臨前很久,相關關係就已經被證明大有用途。這個觀點是1888年查爾斯·達爾文的表弟弗朗西斯·高爾頓爵士(Francis Galton)提出的,因為他注意到人的身高和前臂的長度有關係。相關關係背後的數學計算是直接而又有活力的,這是相關關係的本質特徵,也是讓相關關係成為最廣泛應用的統計計量方法的原因。但是在大數據時代之前,相關關係的應用很少。因為數據很少而且收集數據很費時費力,所以統計學家們喜歡找到一個關聯物,然後收集與之相關的數據進行相關關係分析來評測這個關聯物的優劣。那麼,如何尋找這個關聯物呢?
有些人可能會覺得這種方法聽起來很恐怖,這些公司似乎可以利用任何網路上的信息。這會讓人們下次登陸極限運動網站和坐到電視機前觀看幽默情景劇前三思而後行,因為不想因此支付更多的保險費用。讓我們在接觸任何信息的時候(同時也產生可能被分析的數據)都膽戰心驚是一件非常糟糕的事情。但另一方面,這個系統有助於更多的人得到保險,這對於社會和保險公司都是有好處的。
考慮到這些,如果把以確鑿數據為基礎的相關關係和通過快速思維構想出的因果關係相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關關係分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現為通過嚴格控制的實驗來驗證的因果關係,而這必然是非常耗時耗力的。
無獨有偶,橋樑和建築物上也被安裝了感測器來監測磨損程度。大型化工廠和提煉廠也安裝了感測器,因為一旦設備的某一個零件有問題,就只有在更換了零件之後生產才能繼續進行。收集和分析數據的花費比出現停產的損失小得多。預測性分析並不能解釋故障可能會發生的原因,只會告訴你存在什麼問題,也就說它並不能告訴你引擎過熱是因為什麼,磨損的風扇皮帶?沒擰緊的螺帽?沒有答案。
快速思維模式使人們偏向用因果聯繫來看待周圍的一切,即使這種關係並不存在。這是我們對已有的知識和信仰的執著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關係都是並不存在的。
在大數據時代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預測,我們看到了很多以前不曾注意到的聯繫,還掌握了以前無法理解的複雜技術和社會動態。但最重要的是,通過去探求「是什麼」而不是「為什麼」,相關關係幫助我們更好地了解了這個世界。
這是一個複雜的大數據問題。光在紐約,地下電纜就有15萬公里,都足夠環繞地球三周半了。而曼哈頓有大約51000個沙井蓋和服務設施,其中很多設施都是在愛迪生那個時代建成的,而且有二十分之一的電纜在1930年之前就鋪好了。儘管1880以來的數據都保存著,卻很雜亂,因為從沒想過要用來進行數據分析。這些數據都是由會計人員或進行整修的工作人員記錄下來的,因為是手記,所以說這些數據雜亂一點也不為過。比如說,常見的「服務設施」代碼就有38個之多,而計算機演算法需要處理的就是這麼混亂的數據:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICE BOX……
但真的是因為他嗎?事實證明,一般來說,人被狂犬病狗咬後患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用於七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%。
過去,總部的人員們需要先有了想法,然後才能收集數據來測試這個想法的可行性。如今,我們有了如此之多的數據和更好的工具,所以要找到相關係變得更快、更容易了。這就意味著我們必須關注:當數據點以數量級方式增長的時候,我們會觀察到許多似是而非的相關關係。畢竟我們還處於考察相關關係的初期,所以這一點需要我們高度重視。

大數據先鋒

美國折扣零售商塔吉特與懷孕預測

大數據相關關係分析的極致,非美國折扣零售商塔吉特(Target)莫屬了。該公司使用大數據的相關關係分析已經有多年。《紐約時報》的記者查爾斯·杜西格(Charles Duhigg)就在一份報道中闡述了塔吉特公司怎樣在完全不和准媽媽對話的前提下預測一個女性會在什麼時候懷孕。基本上來說,就是收集一個人可以收集到的所有數據,然後通過相關關係分析得出事情的真實狀況。

對於零售商來說,知道一個顧客是否懷孕是非常重要的。因為這是一對夫妻改變消費觀念的開始,也是一對夫妻生活的分水嶺。他們會開始光顧以前不會去的商店,漸漸對新的品牌建立忠誠。塔吉特公司的市場專員們向分析部求助,看是否有什麼辦法能夠通過一個人的購物方式發現她是否懷孕。

公司的分析團隊首先查看了簽署嬰兒禮物登記簿的女性的消費記錄。塔吉特公司注意到,登記簿上的婦女會在懷孕大概第三個月的時候買很多無香乳液。幾個月之後,她們會買一些營養品,比如鎂、鈣、鋅。公司最終找出了大概20多種關聯物,這些關聯物可以給顧客進行「懷孕趨勢」評分。這些相關關係甚至使得零售商能夠比較準確地預測預產期,這樣就能夠在孕期的每個階段給客戶寄送相應的優惠券,這才是塔吉特公司的目的。

杜西格在《習慣的力量》(The Power of Habit)一書中講到了接下來發生的事情。一天,一個男人衝進了一家位於明尼阿波利斯市郊的塔吉特商店,要求經理出來見他。他氣憤地說:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎?」而當幾天後,經理打電話向這個男人致歉時,這個男人的語氣變得平和起來。他說:「我跟我的女兒談過了,她的預產期是8月份,是我完全沒有意識到這個事情的發生,應該說抱歉的人是我。」

如今,專家們正在研發能發現並對比分析非線性關係的必要技術工具。一系列飛速發展的新技術和新軟體也從多方面提高了相關關係分析工具發現非因果關係的能力,這就好比立體派畫家同時從多個角度來表現女性臉龐的手法。