0%
第二部分 大數據時代的商業變革 04 數據化:一切皆可「量化」

第二部分 大數據時代的商業變革

04 數據化:一切皆可「量化」

1978年見證了一個偉大的轉變,當時構成全球定位系統(GPS)的24顆衛星第一次發射成功。無論是汽車上的導航系統還是智能手機,地面上的接收器都能通過計算接收信號所需時間的差異對它們進行三角定位,而這些信號就來自於距離我們20372千米的天空。20世紀80年代,這個系統第一次對民用開放,到90年代才完全投入使用,而同時為了實現商業運用,它的精確度在十年後得到了大幅提升。如今,全球定位系統的地理定位能精確到米,就這樣,它實現了自古以來無數航海家、製圖家和數學家的夢想。通過與技術手段的融合,全球定位系統能夠快速、相對低價地進行地理定位,而且不需要任何專業知識。
計算機的出現帶來了數字測量和存儲設備,這樣就大大提高了數據化的效率。計算機也使得通過數學分析挖掘出數據更大的價值變成了可能。簡而言之,數字化帶來了數據化,但是數字化無法取代數據化。數字化是把模擬數據變成計算機可讀的數據,和數據化有本質上的不同。
數字化和數據化的差異是什麼?回答這個問題很容易,我們來看一個兩者同時存在並且起作用的領域就可以理解了,這個領域就是書籍。2004年,谷歌發布了一個野心勃勃的計劃:它試圖把所有版權條例允許的書本內容進行數字化,讓世界上所有的人都能通過網路免費閱讀這些書籍。為了完成這個偉大的計劃,谷歌與全球最大和最著名的圖書館進行了合作,並且還發明了一個能自動翻頁的掃描儀,這樣對上百萬書籍的掃描工作才切實可行且不至於太過昂貴。
1855年,莫里的權威著作《關於海洋的物理地理學》(The Physical Geography of the Sea)出版,當時他已經繪製了120萬數據點了。莫里寫道,在這些圖表的幫助下,年輕的海員們不用再親自去探索和總結經驗,而能夠通過這些圖表立即得到來自成千上萬名經驗豐富的航海家的指導。
我們正在進行一個重大的基礎設施項目,它在某種程度上與我們過去所做的都不一樣,無論是羅馬的水渠還是啟蒙運動時期的百科全書。它如此的新穎,而我們又深處其中;同時,又因為它是無形的,不像水渠中能觸摸到的水,所以我們並未意識到它的存在。這個它,就是無處不在的數據化。像其他的基礎設施那樣,它會給社會帶來根本性的變革。
萊維斯說,「預測給我們知識,而知識賦予我們智慧和洞見。」他很確信,有一天,這個系統一定能在用戶意識到問題之前預測到並且解決問題。
只要一點想象,萬千事物就能轉化為數據形式,並一直帶給我們驚喜。IBM獲得的「觸感技術先導」專利與東京的越水重臣教授對臀部的研究工作具有相同理念。知識產權律師稱那是一塊觸感靈敏的地板,就像一個巨大的智能手機屏幕。其潛在的用途十分廣泛。它能分辨出放置其上的物品。它的基本用途就是適時地開燈和開門。然而更重要的是,它能通過一個人的體重、站姿和走路方式確認他的身份。它還能知道某人在摔倒之後是否一直沒有站起來。有了它,零售商可以知道商店的人流量。當地板數據化了的時候,它就能滋生無窮無盡的用途。
越水重臣教授把一個從不被認為是數據、甚至不被認為和數據沾邊的事物轉化成了可以用數值來量化的數據模式。同樣,莫里中校從看上去沒什麼用處的事物中提取出了信息,轉化成了極其有用的數據。這樣創新性的應用創造出了這些信息獨特的價值。

大數據先鋒

多效地理定位與UPS的最佳行車路徑

UPS快遞多效地利用了地理定位數據。為了使總部能在車輛出現晚點的時候跟蹤到車輛的位置和預防引擎故障,它的貨車上裝有感測器、無線適配器和GPS。同時,這些設備也方便了公司監督管理員工並優化行車線路。就像莫里的圖表是基於過去的航海經驗一樣,UPS為貨車定製的最佳行車路徑一定程度上也是根據過去的行車經驗總結而來的。

UPS的過程管理總監傑克·萊維斯(Jack Levis)認為這個分析項目效果顯著。2011年,UPS的駕駛員們少跑了近4828萬公里的路程,節省了300萬加侖的燃料並且減少了3萬公噸的二氧化碳排放量。系統也設計了盡量少左轉的路線,因為左轉要求貨車在交叉路口穿過去,所以更容易出事故。而且,貨車往往需要等待一會兒才能左轉,也會更耗油,因此,減少左轉使得行車的安全性和效率都得到了大幅提升。

誰也想不到,這裏竟成了他的福地。作為一位年輕的航海家,莫里曾經對船隻在水上繞彎兒不走直線而感到十分不解。當他向船長們問及這個問題時,他們回答說,走熟悉的路線比冒險走一條不熟悉而且可能充滿危險的路線要好得多。他們認為,海洋是一個不可預知的世界,人隨時都可能被意想不到的風浪困住。
伊格爾是無線數據科技公司Jana的創始人,他使用了來自100多個國家的超過200個無線運營商的手機數據——覆蓋了拉丁美洲、非洲、歐洲的大約35億人口。伊格爾的研究既關注家庭主婦平均每周去幾次洗衣店這樣的肥皂問題,也試圖回答關於疾病如何傳播和城市如何繁榮這樣的重大問題。在一項研究中,他和同事結合分析了非洲預付費用戶的位置信息和他們賬戶的資費金額,發現資費與收入成正比:越富有的人一次性預付費越多。然而,他們還得出了一個與直覺判斷相反的結果,那就是貧民窟不僅僅是永恆不變的貧困中心,還是經濟繁榮的跳板。關鍵就在於,我們要意識到這都是手機所提供的位置信息的間接利用,而和移動通信自身業務沒有絲毫關係,但是這些數據最初又是為了更好地開展移動通信而生成的。總之,位置信息一被數據化,新的用途就猶如雨後春筍般湧現出來,而新價值也會隨之不斷催生。

大數據洞察

今天,技術專家都默認大數據的發展和計算機的變革是同步的。但事實並不是這樣的。毫無疑問,是現代信息系統讓大數據成為了可能,但是大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今信息技術變革的重點在「T」(技術)上,而不是在「I」(信息)上。現在,我們是時候把聚光燈打向「I」,開始關注信息本身了。

世間萬物的數據化

這樣一來,地理定位信息終於能在標準化的數值範式下進行標記、記錄、測量、分析和共享了。但是因為在模擬數據時代,測量和記錄地理位置信息耗費很大,人們很少執行。因此,發明能低成本測量地理方位的工具迫在眉睫。到20世紀70年代,進行地理位置定位還只能依靠地標、天文星座、航位推測法和尚顯欠缺的無線電定位技術。
數據化實時位置信息在人身上的運用最為顯著。多年來,無線運營商通過收集和分析這些信息來提升移動互聯網的服務水平。不過,這些數據越來越多地被用於其他事情上,第三方也開始利用這些數據來提供新的服務。比方說,一些智能手機的應用程序也不管它本身是否具有定位功能,就收集位置信息;還有一些應用程序就是為了獲得用戶的位置信息而存在的,比如Foursquare,它讓用戶在最喜愛的地方「check in」,通過忠誠度計劃、酒店推薦和「check in」地點附近的其他推薦而獲得好處。
雖然這是一個現代的、數字化的亞歷山大圖書館,比歷史上任何一個圖書館都要強大,但谷歌依然希望它能做得更多。谷歌知道,這些信息只有被數據化,它的巨大潛在價值才會被釋放出來。因此谷歌使用了能識別數字圖像的光學字元識別軟體來識別文本的字、詞、句和段落,如此一來,書頁的數字化圖像就轉化成了數據化文本。
而所謂的一個商業家族,就是指美第齊家族——威尼斯商人和藝術資助人。16世紀,這個家族能成為歐洲最有影響力的銀行家族,很大一部分要歸功於他們使用的一種高級數據記錄方法——複式記賬法。帕西奧利的著作和美第齊家族的成功奠定了複式記賬法成為標準數據記錄法的基礎,也奠定了阿拉伯數字在此之後不可取代的地位。

大數據洞察

對地理位置的數據化需要滿足一些前提條件。我們需要能精確地測量地球上的每一塊地方;我們需要一套標準的標記體系;我們需要收集和記錄數據的工具。簡而言之,就是地理範圍、標準、工具或者說量化、標準化、收集。只有具備了這些,我們才能把位置信息當成數據來存儲和分析。

他清點了庫房裡的氣壓計、指南針、六分https://read.99csw.com儀和天文鐘。他發現,庫房裡存放著許多航海書籍、地圖和圖表;還有塞滿了舊日誌的發霉木箱,這些都是以前的海軍上尉寫的航海日誌。剛開始的時候,他覺得這些都是垃圾,但當他拍掉被海水浸泡過的書籍上的灰塵,凝視著裏面的內容時,莫里突然變得非常激動。
現在很多公司都在電子書領域激烈地競爭著,亞馬遜連同它的Kindle電子書就是這個領域的先驅者。同樣在這裏,亞馬遜和谷歌的發展策略差異顯而易見。
然而,數據的使用還遠未成熟。就Facebook的情況來說,因為知道太早泄露用戶數據的許多新用途會讓用戶反應過激,所以它精明地選擇了忍耐。另外,公司仍然在為其收集的數據數量和類型,包括隱私問題進行商業模式和政策上的調整。目前,它所面對的指責都集中在能採集到什麼,而並非它實際用這些數據幹了什麼。
數據化的另一個前沿更加個人化,直接觸摸到了我們的關係、經歷和情感。數據化的構思是許多社交網路公司的脊樑。社交網路平台不僅給我們提供了尋找和維持朋友、同事關係的場所,也將我們日常生活的無形元素提取出來,再轉化為可作新用途的數據。正因此,Facebook將關係數據化——社交關係在過去一直被視作信息而存在,但從未被正式界定為數據,直到Facebook「社交圖譜」的出現。Twitter通過創新,讓人們能輕易記錄以及分享他們零散的想法(這些在以前,都會成為遺忘在時光中的碎片),從而使情緒數據化得以實現。LinkedIn將我們過去漫長的經歷進行了數據化處理,就像莫里轉化舊航海日誌那樣,把信息轉化為對現在和將來的預測:我們可以認識誰,或者哪裡存在一份心儀的工作。

大數據的力量

Facebook2012年擁有大約10億用戶,他們通過上千億的朋友關係網相互連接。這個巨大的社交網路覆蓋了大約10%的全球總人口。想想這所有的關係和活動在數據化之後都為一家公司所掌控,這些指責和質疑就不能算作空穴來風。

定位時時刻刻都可能生成信息。只要願意,埃拉托色尼或者墨卡託大可以每時每刻都對他們所處的位置進行定位,這誰也管不著。但就算這是可行的,也不現實。同樣地,早期的接收器非常複雜和昂貴,適用於潛艇而不是計程車。幸好,改變發生了,這多虧了數字設備中廉價晶元的普及。GPS導航的價格由20世紀90年代的上百美元驟降到了今天的1美元以下。用GPS進行定位一般僅需要幾秒鐘的時間,它使用的是標準化坐標表示法;所以37°14′06″N 115°48′40″W說明這個人一定是位於內華達州偏遠的51號區域(Area 51),一個美軍超高安全、超級保密的軍事基地——傳說那裡面關的都是外星人呢!
整整一個多世紀以來,物理學家們一直宣稱情況應該是這樣的——並非原子而是信息才是一切的本源。不可否認,這也許聽上去無法理解。然而通過數據化,在很多情況下我們就能全面採集和計算有形物質和無形物質的存在,並對其進行處理。
數據化不僅能將態度和情緒轉變為一種可分析的形式,也可能轉化人類的行為。這些行為難以跟蹤,特別是在較大的社區和其中的子人群環境中。
在大多數情況下,我們會採集信息並將之存儲為數據形式再加以利用。幾乎所有領域,任何事情都能這樣處理。GreenGoose是一家創業公司,他們銷售能放置在物品上的微型運動感應器,用它監測物品的使用次數。比如把它放置在一捆牙線、一個洒水壺或者一盒貓食上,就能數據化牙齒清潔、植物護理以及寵物餵養的信息。很多人對「物聯網」有著宗教般的狂熱,試圖在一切生活中的事物中都植入晶元、感測器和通信模塊。這個詞聽起來好像和互聯網親如姐妹,其實不過是一種典型的數據化手段罷了。
隨著智能手機和計算機技術的普及,對個人最重要的生活行為進行數據處理從未如現在這般容易。許多創業公司通過測量人們夜間的腦電波來試圖找出他們的睡眠模式。Zeo公司則早已製作出了世界上最大的睡眠活動資料庫,揭示了男性與女性睡眠時快速眼動量的差異。Asthmapolis公司將一個感應器綁定到哮喘病人佩戴的呼吸器上,通過GPS定位,再匯總收集起來的位置數據,可以判斷環境因素(如接近特定的農作物)對哮喘的影響。Fitbit和Jawbone公司讓人們測量他們的體力活動和睡眠。Basis公司用腕帶來監測佩戴者的生命體征,包括其心率和皮膚電傳導率,以此測試他們所承受的壓力。2009年,蘋果公司就申請了一項專利,通過音頻耳塞收集關於血液氧合、心率和體溫的數據。獲取數據正變得比以往任何時候都簡單而不受限制。
如今,複式記賬法通常被看成是會計業和金融業不斷發展的成果。事實上,在數據利用的推進過程中,它也是一個裡程碑似的存在。它的出現實現了相關賬戶信息的「分門別類」記錄。它建立在一系列記錄數據的規則之上,也是最早的信息記錄標準化的例子,使得會計們能夠讀懂彼此的賬本。複式記賬法可以使查詢每個賬戶的盈虧情況變得簡單容易。它會提供交易的記賬線索,這樣就更容易找到需要的數據。它的設計理念中包含了「糾錯」的思想,這也是今天的技術人才們應該學習的。如果一個賬本看著不對勁,我們可以查詢另一個相對應的賬本。
當莫里還是一個海軍軍官學校的學生時,他每次到達一個新的港口,總會向老船長學習經驗知識,這些經驗知識是代代相傳下來的。他從這些老船長那裡學到了潮汐、風和洋流的知識,這些都是在軍隊發的書籍和地圖中無法學到的。相反,海軍依賴於陳舊的圖表,有的都使用了上百年,其中的大部分還有很重大的遺漏和離譜的錯誤。在他新上任為圖表和儀器廠負責人時,他的目標就是解決這些問題。
公元前3000年,會計手稿就出現了。但是,記賬法在接下來的幾百年裡發展緩慢,基本上一直保持在記錄某地的某個特定交易的階段。記賬人和他的僱主最關心的就是判斷某個賬戶或者自己所從事的行業是否賺錢,而這正是當時的記賬手法無法輕易做到的事情。到了14世紀,隨著義大利的會計們開始使用兩個賬本記錄交易明細,這種尷尬的境地開始發生改變。這種記賬法的優勢在於,人們只需要將借貸相加,就可進行製表並得知每個賬戶的盈虧情況。如此,數據驟然發聲了,雖然僅限於讀出盈虧情況。
有經驗的海員有時依靠經驗能安全航海,但有時也會陷入危險之中。在從紐約到里約熱內盧這條繁忙的航線上,水手們往往傾向於與自然鬥爭而不是順應自然。美國船長一直被勸導前往裡約熱內盧不能通過海峽,因為那樣存在很大風險,所以船長會選擇在東南方向的航線上航行,再穿過赤道駛向西南方向。而這樣一來,航行的距離就相當於穿越大西洋兩次。這是很荒謬的,其實直接沿著海峽向南航行就可以了。
數據化能幫助我們獲取到更多關於人體運作方式的信息。挪威耶維克大學的研究人員和Derawi Biometrics公司聯合為智能手機開發了一款應用程序,可以分析人走路時的步伐並將其作為手機解鎖的安全系統。同時,喬治亞理工學院的羅伯特·德拉諾(Robert Delano)和布萊恩·派爾思(Brian Parise)開發了一款叫做iTrem的應用程序,用手機內置的測震儀監測人身體的顫動,以應對帕金森和其他神經系統疾病。這個程序給醫生和病人都帶來了好處;它讓患者避免了在醫院做昂貴的體檢,也讓醫學專家們能遠程監控人們的疾病以及治療效果。據東京的調查人員說,用智能手機測量震動雖然沒有三軸測震儀這種專門的醫療器械那麼精確,但也只差了一點,所以完全可以放心使用。這再一次證明,一點點的不精確比完全精確更有效。
雖然與今天的大數據技術大體類似,但是一想到他是通過人工一筆一畫完成的圖表繪製,就讓人不禁感到驚嘆。這說明在遠在信息數字化之前,對數據的運用就已經開始了。如今我們經常把「數字化」和「九*九*藏*書數據化」這兩個概念搞混,但是對這兩個概念的區分實際上非常重要。我們來看一個更加現代的例子,幫助我們理解數據其實可以從看上去最不可能的東西中提取出來。
數據被人類利用的頻率遠沒有被計算機利用得多。以「金融工程師」而聞名的華爾街的數學奇才們,將數據傳輸到了他們的演算法模式當中,來尋找能被有效利用並實現贏利的隱性聯繫。根據「社交網路分析之父」貝爾納多·哈柏曼(Bernardo Huberman)的分析,微博中單一主題出現的頻率可以用來預測很多事情,比如好萊塢的票房收入。他和一位在惠普實驗室工作的同事開發了一個程序,可以用來監聽新微博的發布頻率,基於此,他們就能預測一部電影的成敗,這往往比其他傳統評估預測方法還要準確。
為了提高精確度,莫里需要更多的信息,因此他創建了一個標準的表格來記錄航海數據,並且要求美國所有的海軍艦艇在海上使用,返航后再提交表格。商船也拚命地想得到他的圖表,莫里就要求以他們的航海日誌作為回報(病毒型社交網路的早期版本)。他宣稱:「每艘航行在公海上的船舶從此以後都可以被視為一個浮動的天文台,一個科學的殿堂。」為了改進和完善圖表,他需要尋求更多的數據(正如谷歌利用網頁排名來獲得更多的數據)。莫里讓船長定期向海里扔擲標有日期、位置、風向以及當時洋流情況的瓶子,然後再來尋找這些瓶子。許多船掛了一面特殊的旗幟,表明它參与了這個信息交流計劃。這些旗幟就是出現在一些網站上的友情鏈接的前身。
15世紀中葉,人類發明了印刷機,在這之後大約出版了1.3億冊圖書。到2010年為止,也就是谷歌的數字化圖書計劃實行7年之後,大約有2000萬圖書被掃描成了數字圖書,這幾乎相當於人類所有書寫文明的15%,這是多麼驚人的數字!這誘發了一個新的學術方向——文化組學。「文化組學」是一個計算機專業詞彙,指的就是通過文本的定量分析來揭示人類行為和文化發展的趨勢。
同樣,Twitter也已經開闢了其數據的新用途。從某種程度上說,2012年超過1.4億用戶每天發送的4億條微博幾乎就和隨意的口頭零碎差不多。事實上,它們通常就是如此。然而,Twitter公司實現了人們想法、情緒和溝通的數據化,這些都是以前不曾實現的。Twitter與兩家公司,DataSift和Gnip達成了一項出售數據訪問許可權的協議。許多公司對微博做了句法分析,有時還會使用一項叫作情感分析的技術,以獲得顧客反饋意見的匯總或對營銷活動的效果進行判斷。
當文字變成數據,它就大顯神通了——人可以用之閱讀,機器也可用之分析。但是作為典型的大數據公司,谷歌自然知道收集信息並進行數據化的價值,因為這些數據有非常多的潛在用途。所以,谷歌精明地利用這些數據化了的文本來改進它的機器翻譯服務。就像第3章介紹過的一樣,這個系統會自動掃描譯本,然後找出譯語的單詞和片語在源語中的對應詞和片語是什麼。一旦得到答案,系統就可以把翻譯看成是一個簡單的數學問題,只需要用電腦找出兩種語言之間最恰當的對等詞和片語。

數據,從最不可能的地方提取出來

大數據洞察

一旦世界被數據化,就只有你想不到,而沒有信息做不到的事情了。莫里通過艱辛的人工分析才揭示了隱藏在數據中的價值,而今天,擁有了數據分析的工具(統計學和演算法)以及必需的設備(信息處理器和存儲器),我們就可以在更多領域、更快、更大規模地進行數據處理了。在大數據時代,驚喜無處不在!

雖然那時就出現了記錄地理方位的方法,但卻缺乏廣為認可的標記標準,使得信息共享依然難以實現。人們急需一套標準的標記系統,就像互聯網需要有域名才能正常運行一樣。經緯度的標準化是一個漫長的過程。直到1884年,在美國華盛頓召開的國際子午線會議上,25個與會國家中的24個國家一致同意將英格蘭格林尼治定為本初子午線和零度經線所穿過的地方(只有自命不凡的法國投了棄權票)。20世紀40年代,墨卡托方位法把世界劃分成了60個區域,提高了地理定位的精確性。
兩家對沖基金,倫敦的英國對沖基金(Derwent Capital)和加利福尼亞的MarketPsych開始分析微博的數據文本,以作為股市投資的信號(他們從未公開自己的商業秘決,也不知道是傾向於投資勢頭良好的公司還是做空)。兩家公司現在都在向經商者出售信息。就MarketPsych而言,它與Thomson Reuters合作提供了分佈在119個國家不低於18864項的獨立指數,比如每分鐘更新的心情狀態,如樂觀、憂鬱、快樂、害怕、生氣,甚至還包括創新、訴訟及衝突情況等。
「數據」(data)這個詞在拉丁文里是「已知」的意思,也可以理解為「事實」。這是歐幾里得的一部經典著作的標題,這本書用已知的或者可由已知推導的知識來解釋幾何學。如今,數據代表著對某件事物的描述,數據可以記錄、分析和重組它。我們還沒有合適的詞用來形容莫里和越水重臣教授所做的這些轉變,所以我們姑且稱其為「數據化」吧——這是指一種把現象轉變為可製表分析的量化形式的過程。

當溝通變成數據

【大數據先鋒】
日本先進工業技術研究所的坐姿研究與汽車防盜系統
谷歌的數字圖書館
多效地理定位與UPS的最佳行車路徑
Foursquare,讓用戶在最喜愛的地方「check in」
用手機數據預測疾病傳播和城市繁榮
英國對沖基金公司,用微博數據預測股市投資時機
睡眠活動資料庫與睡眠模式預測
GPS感應器,判斷環境因素對哮喘病的影響
其實沒有聽上去那麼荒謬。「自我量化」是一項由一群健身迷、醫學瘋子以及技術狂人發起的運動,通過測量身體的每一個部位和生活中的每一件事來讓生活更美好——或者至少用量化的方式來獲得新知。目前,自我量化運動規模還很小,但正在日益壯大。
馬修·方丹·莫里(Matthew Fontaine Maury)是一位很有前途的美國海軍軍官。1839年,在他前往雙桅船「合奏號」(Consort)接受一個新任務時,他乘坐的馬車突然滑出了車道,瞬間傾倒,把他拋到了空中。他重重地摔到了地上,大腿骨粉碎性骨折,膝蓋也脫臼了。當地的醫生幫他複位了膝蓋關節,但大腿受傷過重,幾天後還需要重新手術。直到33歲,他的傷才基本痊癒,但是受傷的腿卻留下了殘疾,變得有點兒跛,再也無法在海上工作。經過九九藏書近三年的休養,美國海軍把他安排進了辦公室,並任命他為圖表和儀器廠的負責人。
計量和記錄能夠再現人類活動。比如通過記錄建築物的建築方式和原材料,我們就能再建同樣的建築,或進行實驗性的操作,比如通過改變一些方式保存其他部分而建造出新的建築物,然後再記錄這些新建築物。交易情況一旦得到記錄,我們就可以知道一塊地豐收時稻穀的產量是多少、需要上繳多少政府稅收。計量和記錄為預測和計劃奠定了基礎,雖然這建立在假定明年的收成和今年一樣的基礎上。有了記錄,交易雙方才會知道他們賒賬的情況,而如果沒有這些憑證的支持,欠債的一方則完全可以不用還錢。
這個土生土長的弗吉尼亞人在美國歷史上並不受關注,這也許是因為他在美國內戰期間不再為海軍效力,而是搖身一變成為了美國聯邦政府在英國的間諜。但是多年前,當他前去到歐洲為他繪製的圖表尋求國際支持的時候,四個國家授予了他爵士爵位,包括梵蒂岡在內的其他八個國家還頒給了他金牌。即使到今天,美國海軍頒布的導航圖上仍然有他的名字。

數據化,不是數字化

這些早期的發現預示了數據化將走向何方。和谷歌一樣,一些社交網路(如Facebook,Twitter,LinkedIn,Foursquare)坐擁了大型數據的寶藏,一旦這些數據信息得到了深入分析,它們就能輕易獲得社會各行各業以及三教九流的幾乎所有的動態信息。
地球本身構成了世界上最基礎的信息。但是,歷史上它幾乎從來沒有被量化和數據化過。其實,人和事物的地理定位自然是信息的組成部分,不然我們如何能夠吟唱「所謂伊人,在水一方」,但是,這些信息需要轉變為數據。
記錄信息的能力是原始社會和先進社會的分界線之一。早期文明最古老的抽象工具就是基礎的計算以及長度和重量的計量。公元前3000年,信息記錄在印度河流域、埃及和美索不達米亞平原地區就有了很大的發展,而日常的計量方法也大有改善。美索不達米亞平原上書寫的發展促使了一種記錄生產和交易的精確方法的產生,這讓早期文明能夠計量並記載事實情況,並且為日後所用。計量和記錄一起促成了數據的誕生,它們是數據化最早的根基。
這個數學家就是方濟各會的修士路薩·帕西奧利(Luca Pacioli)。1494年,他出版了一本為普通讀者和商人所寫的數學教材。這本書大獲成功,成為盛行一時的數學教科書。這是第一本全書都使用阿拉伯數字的書籍,因此也促進了阿拉伯數字在歐洲的傳播。當然,這本書最大的貢獻在於它對複式記賬法的詳盡論述。接下來的幾十年間,這個論述複式記賬法的部分被分別譯成了6種語言,並且成為幾個世紀的通用範本。

大數據先鋒

日本先進工業技術研究所的坐姿研究與汽車防盜系統

日本先進工業技術研究所(Japan's Advanced Institute of Industrial Technology)的教授越水重臣(Shigeomi Koshimizu)所做的研究就是關於一個人的坐姿。很少有人會認為一個人的坐姿能表現什麼信息,但是它真的可以。當一個人坐著的時候,他的身形、姿勢和重量分佈都可以量化和數據化。越水重臣和他的工程師團隊通過在汽車座椅下部安裝總共360個壓力感測器以測量人對椅子施加壓力的方式。把人體屁股特徵轉化成了數據,並且用從0~256這個數值範圍對其進行量化,這樣就會產生獨屬於每個乘坐者的精確數據資料。

在這個實驗中,這個系統能根據人體對座位的壓力差異識別出乘坐者的身份,準確率高達98%。

這個研究並不愚蠢。這項技術可以作為汽車防盜系統安裝在汽車上。有了這個系統之後,汽車就能識別出駕駛者是不是車主;如果不是,系統就會要求司機輸入密碼;如果司機無法準確輸入密碼,汽車就會自動熄火。把一個人的坐姿轉化成數據后,這些數據就孕育出了一些切實可行的服務和一個前景光明的產業。比方說,通過彙集這些數據,我們可以利用事故發生之前的姿勢變化情況,分析出坐姿和行駛安全之間的關係。這個系統同樣可以在司機疲勞駕駛的時候發出警示或者自動剎車。同時,這個系統不但可以發現車輛被盜,而且可以通過收集到的數據識別出盜賊的身份。

當文字變成數據

伴隨著數據記錄的發展,人類探索世界的想法一直在膨脹,我們渴望能更精準地記錄時間、距離、地點、體積和重量,等等。到了19世紀,隨著科學家們發明了新工具來測量和記錄電流、氣壓、溫度、聲頻之類的自然科學現象,科學已經離不開定量化了。那是一個一切事物都需要被測量、劃分和記錄的時代,人們理解自然的熱情甚至高漲到通過分析測量人的顱骨來試圖分析人的心智能力。好在,對顱相學這類偽科學的熱情最終淡去了,但是人類對於量化一切的熱情卻始終沒有減退。

量化一切,數據化的核心

但是從他的航行經驗來看,莫里知道這並不完全正確。他經歷過各種各樣的風暴。一次,他聽到來自智利瓦爾帕萊索擴展港口的預警,親眼目睹了當時刮成圓形的風就像鍾錶一樣;但在下午晚些或日落的時候,大風突然結束,靜下來變成一陣微風,彷彿有人關了風的開關一樣。在另一次遠航中,他穿過墨西哥藍色海域的暖流,感覺就像在大西洋黑黢黢的水牆之間穿行,又好像在密西西比河靜止不動的河面上挺進。
通過分析這些數據,莫里知道了一些良好的天然航線,這些航線上的風向和洋流都非常利於航行。他所繪製的圖表幫助商人們節省了一大筆錢,因為航海路程減少了三分之一左右。一個船長感激地說:「我在得到你的圖表之前都是在盲目地航行,你的圖表真的指引了我。」有一些頑固的人拒絕使用這個新制的圖表,而當他們因為使用舊方法航行到半路出了事故或者花費的航行時間長很多的時候,他們反而幫助證明了莫里系統的實用性。

莫里的導航圖,大數據的最早實踐之一

如今,GPS已經只是眾多定位系統中的一種了。中國和歐洲也正在研發新的衛星定位系統來與之抗衡。這些新系統通過對電塔和無線路由器的信號強度進行三角測量來定位地理位置,從而彌補了GPS無法在室內和高樓之間進行定位的缺陷,這也是谷歌、蘋果和微軟需要自己研發地理定位系統來輔助GPS的原因。谷歌的街景車(Street View Cars)邊拍照邊收集無線路由器信息;iPhone本身就是一個「移動間諜」,一直在用戶不知情的情況下收集位置和無線數據然後傳回蘋果公司;當然,谷歌的安卓手機和微軟的手機操作系統也在收集這一類數據。
剛開始,谷歌所做的是數字化文本,每一頁都被掃描然後存入谷歌伺服器的一個高解析度數字圖像文件中。書本上的內容變成了網路上的數字文本,所以任何地方的任何人都可以方便地進行查閱了。然而,這還是需要用戶要麼知道自己要找的內容在哪本書上,要麼必須在浩瀚的內容中尋覓自己需要的片段。因為這些數字文本沒有被數據化,所以它們不能通過搜索詞被查找到,也不能被分析。谷歌所擁有的只是一些圖像,這些圖像只有依靠人的閱讀才能轉化為有用的信息。
大約公元1世紀的時候,印度發明了一種自己的數字系統。它傳播到了波斯,並在那裡得到改善,而後傳入阿拉伯國家,得到了極大的改進。這也就是今天使用的阿拉伯數字的前身。十字軍東征給當地人民帶來了徹頭徹尾的災難,但同時也把西歐文明帶到了地中海東部,而其中最重要的引入就是阿拉伯數字。公元1000年,教皇西爾維斯特二世開始倡導使用阿拉伯數字。12世紀,介紹阿拉伯數字的書籍被翻譯成拉丁文,傳播到了整個歐洲地區。這也就開啟了算術的騰飛。
龐大的資料庫有著小資料庫所沒有的價值,莫里中校是最早發現這一點的人之一。大數據的核心就是挖掘出龐大的資料庫獨有的價值。更重要的是,他深知只要相關信息能夠提取和繪製出來,這些髒亂的航海日誌就可以變成有用的數據。通過這樣的方式,他重複利用了別人眼裡完全沒有意義的數據信息。從這個意義上講,莫里就是數據化的先驅。就像奧倫·埃齊奧尼對Farecast所做的事情一樣,用航空業過去的價格信息催生了一個大有賺頭的新公司;也像谷歌的工程師所做的一樣,通過過去的檢索記錄預測到了流感的爆發;而莫里則是發揮出了單純用於記錄航行位置的數據的其他用途。
除了人以外,我們也可以跟蹤事物的地理位置信息。隨著汽車裝上了無線感測器,地理位置信息的數據化深刻變革了保險的概念。這些數據提供了關於時間、地點和實際行駛路程的詳細信息read.99csw.com,使保險公司能更好地為車險定價。在英國,車主可以根據他的實際駕駛地點和時間購買汽車保險,而不是只能根據他的年齡、性別和履歷來購買年險。這種保險定價法激勵投保人產生更好的行為習慣。同時,這改變了保險的基礎,從考慮一個群體的平均風險轉變為個性化的分析。通過汽車定位每個人的地理方位也改變了一些固定資產投入的模式,比方說公路和其他基礎設施可以讓使用這些資源的司機和其他人分擔一部分投入。當然,在實現對所有人和事以數據形式保持持續定位之前,這顯然還無法實現,但這是我們的發展方向。
如今,不僅人類可以使用這些文本信息,計算機也可以處理和分析這些文本數據了。通過檢索和查詢,我們可以對它進行無窮無盡的文本分析;也可以揭示一個詞以及片語第一次出現的時間及其成為流行詞的時間,據此發現幾百年來人類思維發展和思想傳播的軌跡。這種分析支持好幾種語言。
這裡有他所需要的信息,例如對特定日期、特定地點的風、水和天氣情況的記錄。大部分信息都非常有價值。莫里意識到,如果把它們整理到一起,將有可能呈現出一張全新的航海圖。這些日誌是無章可循的;頁面邊上儘是奇怪的打油詩和亂七八糟的信手塗鴉,與其說它們是對航海行程的記錄,還不如說它們是船員在航海途中無聊的娛樂而已。儘管如此,仍然可以從中提取出有用的數據。莫里和他的20台「計算機」——那些進行數據處理的人,一起把這些破損的航海日誌里記錄的信息繪製成了表格,這是一項非常繁重的工作。
算術賦予了數據新的意義,因為它現在不但可以被記錄還可以被分析和再利用。阿拉伯數字從12世紀開始在歐洲出現,而直到16世紀晚期才被廣泛採用。到16世紀的時候,數學家們大肆鼓吹他們使用阿拉伯數字計算能比使用計數板快6倍。但最終讓阿拉伯數字廣為採用的還是複式記賬法的出現,它也是數據化的一種工具。

大數據洞察

今天,我們生活在一個計算型的社會,因為我們相信世界可以通過數字和數學而獲得解釋。我們也相信知識可以跨越時空。事實上,我們對書寫還存在著一種根深蒂固的敬畏。明天,我們的下一代,一群被「大數據觀念」陶冶長大的傢伙,會發自肺腑地認為「量化一切」並從中學習對於社會是至關重要的。把各種各樣的現實轉化為數據,對今天的我們而言也許是新奇而有趣的,但在不久的將來,這將變成如同吃飯睡覺一樣與生俱來的能力——這又讓我想起了「數據」這個詞語的拉丁語原意。

早在阿拉伯數字傳播到歐洲之前,計數板的使用就已經改善了算術。計數板就是在光滑的托盤上放上代幣來表示數量,人們通過移動代幣到某個區域進行加減。但是,這種計數板有著嚴重的缺陷,即過大和過小的計算無法同時進行。最主要的缺陷還在於,這些計數板上的數字變化很快,不小心的碰撞或者是擺錯一位都會導致完全錯誤的結果。而且,即便計數板勉強可以進行計算,它也不適合用來記錄。因為一旦需要將數字記錄在計數板以外的地方,就必須把計數板上的數字轉化成羅馬數字,這可就費時費力了。
他的工作為第一根跨大西洋電報電纜的鋪設奠定了基礎。同時,在公海上發生了一次災難性的碰撞事件之後,他馬上修改了他的航線分析系統,這個修改後的系統一直沿用至今。他的方法甚至應用到了天文學領域,1846年當海王星被發現的時候,莫里有了一個好點子,那就是把錯把海王星當成一顆恆星時的數據都彙集起來,這樣就可以畫出海王星的運行軌跡了。

大數據先鋒

谷歌的數字圖書館

你可以自己試一試。輸入網址http://books.google.com/ngrams,打開Google Ngram Viewer,它利用谷歌所擁有的所有圖書作為數據資源,為你提供單詞和短語歷年使用次數的展示圖表。眨眼之間,我們就能發現「causality」(因果關係)這個詞在1900年之前的使用頻率比「correlation」(相關關係)高;而在1900年之後,情況就與之前相反了。對於作者存在爭議的書籍,我們自己也可以進行作品風格鑒定。數據化的實現讓抄襲學術作品的行為越來越無處藏身,因此,很多歐洲政客(包括一名德國國防部長)的抄襲行為被曝光,最終不得不引咎辭職。

毋庸置疑,收集用戶地理位置數據的能力已經變得極其具有價值。從個人層面上來說,根據他所居住的地點和他要去的地方的預測數據,可以為他提供定製廣告。而且,這些信息彙集起來可能會揭示事情的發展趨勢。比方說,公司可以利用大量的位置數據預測交通情況,你也許無法想象,這是通過高速公路上的手機而不是汽車的數量和移動速度預測出來的。AirSage每天通過處理來自上百萬手機用戶的150億條位置信息,為超過100個美國城市提供實時交通信息。其他兩個位置數據服務商Sense Networks和Skyhook使用位置數據揭示城市夜生活最繁榮的地方或者遊行隊伍聚集了多少人。

大數據先鋒

微博關聯與疫苗接種

來自賓夕法尼亞州立大學的生物學家馬塞爾·薩拉特(Marcel Salathé)和軟體工程師沙先克·坎都拉斯(Shashank Khandelwal)通過分析微博發現,人們對於疫苗的態度與他們實際注射預防流感藥物的可能呈現出相關性。重要的是,他們利用Twitter用戶中誰和誰相關的元數據進行了更進一步的調查,發現未接種疫苗的子人群也可能存在。當然,這項研究的特別之處在於,不同於如谷歌預測流感趨勢時利用匯總數據考慮一個地區人口的「平均」健康狀況,薩拉特開展的情緒分析實際上揭示了個人的衛生行為。

水渠讓城市的發展成為可能,印刷機推進了啟蒙運動,報紙為民族國家的興起奠定了基礎。但這些基礎設施都側重於流動——關於水、關於知識。電話和互聯網也是如此。相比較而言,數據化代表著人類認識的一個根本性轉變。有了大數據的幫助,我們不會再將世界看作是一連串我們認為或是自然或是社會現象的事件,我們會意識到本質上世界是由信息構成的。
數據化和數字化大相徑庭。數字化指的是把模擬數據轉換成用0和1表示的二進位碼,這樣電腦就可以處理這些數據了。數字化並不是計算機改革的開始,最初的計算機革命是計算能力的飛躍。我們通過計算機計算過去需要耗費很長時間的項目,比方說導彈彈道表、人口普查結果和天氣預報。直到後來才出現了模擬數據和數字化。所以1995年,當美國麻省理工學院媒體實驗室的尼古拉斯·尼葛洛龐帝(Nicholas Negroponte)發表他的標誌性著作《數字化生存》(Being Digital)的時候,他的主題就是「從原子到比特」。20世紀90年代,我們主要對文本進行數字化。隨著過去的幾十年裡存儲能力、處理能力和帶寬的提高,我們也能對圖像、視頻和音樂等類似的內容執行這種轉化了。
亞馬遜擁有數據化的書籍,卻不曾挖掘書籍數據化之後的附加價值。該公司創始人兼執行總裁貝索斯說服了上百家出版社在Kindle上發布它們的圖書,所以Kindle的圖書並不是數字圖像,人們可以更改字體大小和用黑白以及彩色兩種方式看書。這些書籍是數據化了的,不只是數字化。事實上,亞九九藏書馬遜把上百萬的新書都數據化了,而谷歌卻在費力地數據化很多舊版本的數據。然而,亞馬遜把它的眼光聚焦于用來閱讀的書籍內容上,而不是分析數據化文本上。當然,有可能它面對了來自傳統出版社的壓力,後者可能限制了書籍內容的使用方法,畢竟版權在人家手中。谷歌,作為一個喜歡跨界的叛逆的大數據公司,就沒有這樣的壓力了,畢竟谷歌的資源來源於用戶點擊,而不關出版社什麼事。至少現在,可以不失公允地說,亞馬遜深諳數字化內容的意義,而谷歌觸及了數據化內容的價值。
將世界看作信息,看作可以理解的數據的海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。
當然,谷歌並不是第一個夢想在計算機時代喚醒書寫文明所蘊含的財富的公司,它也不是第一個吃螃蟹的人。1971年,一個志願者提出倡議把公共領域的書籍放上網路,製成電子書,方便更多的人閱讀,這就是古登堡計劃(Project Gutenburg)。這是非常有意義的,但是這個計劃沒有把書籍數據化,也沒有開發出書籍的其他功能;它關注的是閱讀,而不是擴充書籍用途。同樣地,出版社多年來也一直致力於電子書領域的開發,但是他們都只是把書籍內容作為核心價值,而沒有把書籍看作一種數據並納入自己的商業模式中。因此,他們沒有做到把書籍的數據價值挖掘出來,也不允許別人這樣做。他們沒有看到數據化的需求,也意識不到書籍的數據化潛力。
不可否認,其潛在用途非比尋常。一些消費者信貸領域的創業公司正考慮開發以Facebook社交圖譜為依據的信用評分。FICO,信用評分系統,利用15個變數來預測單個借貸者是否會償還一筆債務。但一家獲得了高額風險投資的創業公司(很遺憾這裏必須匿名)的一項內部研究顯示,個人會償還債務的可能性和其朋友會償還債務的可能性呈正相關。正應了一句老話:物以類聚,人以群分。因此,Facebook也可以成為下一個FICO。顯然,社交媒體上的大量數據也許能形成放飛想象的新型商務基礎,其意義遠不止表面上我們看到的照片分享、狀態上傳以及「喜歡」按鈕。
為了得到可量化的信息,我們要知道如何計量;為了數據化量化了的信息,我們要知道怎麼記錄計量的結果。這需要我們擁有正確的工具。計量和記錄的需求也是數據化的前提,而我們在數字化時代來臨的幾個世紀前就已經奠定好了數據化的基礎。
幾百年來,計量從長度和重量不斷擴展到了面積、體積和時間。公元前的最後一個千年,西方的計量方法已經基本準備就緒,但是還是有著比較嚴重的缺陷。早期文明的計量方法不太適合計算,哪怕是比較簡單的計算。比如羅馬數字的計算系統就不適合數字計算,因為它沒有一個以10為底的記數制或者說是十進位,所以大數目的乘除就算是專家都不知道該怎麼算,而簡單的乘除對一般人來說也不容易。
遲早有一天,數據化的影響會使水渠和報紙的影響微乎其微,同時,通過賦予人類數據化世間萬物的工具,它也對印刷機和互聯網的地位提出了挑戰。可是目前,它最主要的用途還是在商業領域。大數據正被用來創造新型價值,這也是下一章的主題。
大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望。信息技術變革隨處可見,但是如今的信息技術變革的重點在「T」(技術)上,而不是在「I」(信息)上。現在,我們是時候把聚關燈打向「I」,開始關注信息本身了。
這些數據的用途不勝枚舉。Twitter微博限制在稀少的140個字元中,但與每條微博聯繫在一起的元數據是十分豐富的。Twitter的元數據,即「關於信息的信息」,其中包括33個分離的項。雖然一部分信息似乎並沒多大用處,比如Twitter用戶界面上的「牆紙」或用戶用來訪問這項服務的軟體,但其他的元數據卻很有意思,比如他們參与服務所使用的語言、所處的地理位置、關注的人以及粉絲的數量和名字。2011年《科學》雜誌上的一項研究顯示,來自世界上不同文化背景的人們每天、每周的心情都遵循著相似的模式,這項研究建立在兩年多來對84個國家240萬人的5.09億條微博的數據分析上,這在以前是完全無法做到的。情緒真的已經被數據化了。
在西方,對位置信息的量化起源於希臘。公元前200年,埃拉托色尼發明了用格網線來劃分區域的系統,類似於經緯度法。但是,如同很多古代的好想法一樣,它也在歷史長河中被慢慢遺忘了。大約1500年之後,也就是公元1400年,托勒密著成的《地理學》(Geographia)的複印本從君士坦丁堡傳到了佛羅倫薩,那正是文藝復興和貿易船點燃了對科學和古典知識的熱情的時候。著作轟動一時,而書中提到的系統現在仍被用來解決航海導航的難題。從那以後,地圖上標上了經緯度和比例尺。這套系統在1570年得到了佛蘭德製圖師墨卡托的改善,至此海員們就能利用它畫出筆直的航線了。
新工具和開放的思維促進了測量事物和記錄數據的繁榮,而現代數據化就誕生於這片沃土之中。數據化的基礎已經奠定完好,只是在模擬時代這依然是費時費力的。有時候似乎需要無窮無盡的激|情和耐心,或者說,起碼也要有奉獻一生的準備,比如16世紀的第谷·布拉赫(Tycho Brahe)就夜夜細心觀察天體運動。數據化在模擬時代成功的例子並不多,因為這需要很好的運氣——一大串的偶然巧妙地結合在一起。中校莫里就很幸運,他因傷坐進了辦公室,但是卻在那裡發現了珍貴的航海日誌,可不是每個人都能這麼幸運的。然而,數據化的實現有一點必不可少,那就是要從潛在的數據中挖掘出巨大的價值,然後揭示出新的深刻洞見。
但是,和阿拉伯數字一樣,複式記賬法也沒有立即取得成功。直到200年之後,一個數學家和一個商業家族才讓它大受歡迎,他們也改變了數據化的歷史。
莫里整合了數據之後,把整個大西洋按經緯度劃分成了五塊,並按月份標出了溫度、風速和風向,因為根據時間的不同這些數據也有所不同。整合之後,這些數據顯示出了有價值的模式,也提供了更有效的航海路線。
在一項研究中,哈佛大學的研究員們對幾百萬冊書籍和超過5000億個單詞進行了深入研究,發現這些書中出現過的單詞有一半以上在字典中是無法找到的。他們寫道,這些因為不夠規範而沒有錄入正規詞典中的詞彙如此之多,是一個巨大的寶藏。通過系統分析人們如何提及納粹德國時期的猶太畫家馬克·夏加爾(Marc Chagall),他們發現對於思想或是個人的審查和壓制會留下「可量化的痕迹」。詞語就像是藏於書中而非沉積岩中的化石;信奉「文化組學」的人可以像考古學家一般,挖掘它們所蘊藏的財富。當然,這可能會導致一些可能的偏差,比如圖書館的書籍是不是真實地反映了現實呢?還是反映的只是作者和圖書管理員看到的世界?儘管如此,「文化組學」還是會為人們帶來很多驚喜的發現。

當方位變成數據

不過,位置數據在商業以外的用途或許才是最重要的。麻省理工學院媒體實驗室人類動力學實驗室主任亞歷山大·彭特蘭(Alexander 「Sandy」Pentland)和他的學生南森·伊格爾(Nathan Eagle)是所謂的「現實挖掘」研究的先驅。「現實挖掘」這裏指的是通過處理大量來自手機的數據,發現和預測人類行為。在一項研究中,他們通過分析每個人去了哪裡、見了誰,成功地區分出了感染了流感的人群,而且在感染者還完全不知道自己已經患病之前就做出了區分。如果出現非常嚴重的流感疫情,這可以挽救無數人的生命,因為我們會知道應該隔離誰,而且隨時都知道去哪裡找到他。但是這些數據一旦落入壞人之手,後果將不堪設想,這個問題我們將在後文中繼續討論。