0%
引言 一場生活、工作與思維的大變革

引言 一場生活、工作與思維的大變革

對我們而言,危險不再是隱私的泄露,而是被預知的可能性——這些能預測我們可能生病、拖欠還款和犯罪的演算法會讓我們無法購買保險、無法貸款、甚至在實施犯罪前就被預先逮捕。顯然,統計把大數據放在了首位,但即便如此,個人意志是否應該凌駕于大數據之上呢?就像出版印刷行業的發展推動國家立法保護言論自由(在此之前沒有出台類似法律的必要,因為沒有太多的言論需要保護),大數據時代也需要新的規章制度來保衛權勢面前的個人權利。
大數據時代開啟了一場尋寶遊戲,而人們對於數據的看法以及對於由因果關係向相關關係轉化時釋放出的潛在價值的態度,正是主宰這場遊戲的關鍵。新興技術工具的使用使這一切成為可能。寶貝不止一件,每個數據集內部都隱藏著某些未被發掘的價值。這場發掘和利用數據價值的競賽正開始在全球上演。
第三個轉變因前兩個轉變而促成,即我們不再熱衷於尋找因果關係。這部分內容將在第3章闡述。尋找因果關係是人類長久以來的習慣。即使確定因果關係很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數據時代,我們無須再緊盯事物之間的因果關係,而應該尋找事物之間的相關關係,這會給我們提供非常新穎且有價值的觀點。相關關係也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。

大數據,變革思維

Farecast是大數據公司的一個縮影,也代表了當今世界發展的趨勢。五年或者十年之前,奧倫·埃齊奧尼是無法成立這樣的公司的。他說:「這是不可能的。」那時候他所需要的計算機處理能力和存儲能力太昂貴了!雖說技術上的突破是這一切得以發生的主要原因,但也有一些細微而重要的改變正在發生,特別是人們關於如何使用數據的理念。

大數據,變革商業

對大多數人來說,這種被敲竹杠的感覺也許會隨著他們走下飛機而消失。然而,埃齊奧尼是美國最有名的計算機專家之一,從他擔任華盛頓大學人工智慧項目的負責人開始,他創立了許多在今天看來非常典型的大數據公司,而那時候還沒有人提出「大數據」這個概念。
我們在大數據時代倡導的一系列規範將在第8章進行介紹。這些規範建立在我們很熟悉的「小數據」時代發展並保留下來的規範的基礎之上。新環境要求舊規範與時俱進。
埃齊奧尼表示,他不需要去解開機票價格差異的奧秘。他要做的僅僅是預測當前的機票價格在未來一段時間內會上漲還是下降。這個想法是可行的,但操作起來並不是那麼簡單。這個系統需要分析所有特定航線機票的銷售價格並確定票價與提前購買天數的關係。
雖然有些數據處理技術已經出現了一段時間,但是它們只為調查局、研究所和世界上的一些巨頭公司所掌握。沃爾瑪和美國第一資本銀行(CapitalOne)率先將大數據運用在了零售業和銀行業,因此改變了整個行業。如今這些技術大多都實現了大眾化。
這個系統為了保障自身的透明度,會把對機票價格走勢預測的可信度標示出來,供消費者參考。系統的運轉需要海量數據的支持。為了提高預測的準確性,埃齊奧尼找到了一個行業機票預訂資料庫。而系統的預測結果是根據美國商業航空產業中,每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。如今,Farecast已經擁有驚人的約2000億條飛行數據記錄。利用這種方法,Farecast為消費者節省了一大筆錢。
美國,和所有其他國家一樣,都要求醫生在發現新型流感病例時告知疾病控制與預防中心。但由於人們可能患病多日實在受不了了才會去醫院,同時這個信息傳達回疾控中心也需要時間,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周只進行一次數據匯總。然而,對於一種飛速傳播的疾病,信息滯后兩周的後果將是致命的。這種滯后導致公共衛生機構在疫情爆發的關鍵時期反而無所適從。

大數據,大挑戰

這個小項目逐漸發展成為一家得到了風險投資基金支持的科技創業公司,名為Farecast。通過預測機票價格的走勢以及增降幅度,Farecast票價預測工具能幫助消費者抓住最佳購買時機,而在此之前還沒有其他網站能讓消費者獲得這些信息。

大數據的力量

到2012年為止,Farecast系統用了將近十萬億條價格記錄來幫助預測美國國內航班的票價。Farecast票價預測的準確度已經高達75%,使用Farecast票價預測工具購買機票的旅客,平均每張機票可節省50美元。

我們大部分的習俗和慣例都建立在一個預設好的立場上,那就是我們用來進行決策的信息必須是少量、精確並且至關重要的。但是,當數據量變大、數據處理速度加快,而且數據變得不那麼精確時,之前的那些預設立場就不復存在了。此外,因為數據量極為龐大,最後做出決策的將是機器而不是人類自己。第7章將會討論大數據的負面影響。
棕色的頭髮,露齒的笑容,無邪的面孔,這就是奧倫·埃齊奧尼。他看上去完全不像是一個會讓航空業損失數百萬潛在收入的人。但事實上,他的目光放得更長遠。2008年,埃齊奧尼計劃將這項技術應用到其他領域,比如賓館預訂、二手車購買等。只要這些領域內的產品差異不大,同時存在大幅度的價格差和大量可運用的數據,就都可以應用這項技術。但是在他實現計劃之前,微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個系統被併入必應搜索引擎。
谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行了比較。他們希望通過分析人們的搜索記錄來判斷這些人是否患上了流感,其他公司也曾試圖read.99csw.com確定這些相關的詞條,但是他們缺乏像谷歌公司一樣龐大的數據資源、處理能力和統計技術。
這種增長意味著什麼呢?彼特·諾維格(Peter Norvig)是谷歌的人工智慧專家,也曾任職於美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標誌性的馬。這些畫可以追溯到一萬七千年之前的舊石器時代。然後,想想一張馬的照片,再想想畢加索的畫也可以,看起來和那些洞穴壁畫沒有多大的差別。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:「自那以後,我們就再也沒有創造出什麼東西了。」

大數據先鋒

天文學,信息爆炸的起源

只有考慮到社會各個方面的變化趨勢,我們才能真正意識到信息爆炸已經到來。我們的數字世界一直在擴張。以天文學為例,2000年斯隆數字巡天(Sloan Digital Sky Survey)項目啟動的時候,位於新墨西哥州的望遠鏡在短短几周內收集到的數據,已經比天文學歷史上總共收集的數據還要多。到了2010年,信息檔案已經高達1.4×242位元組。不過,預計2016年在智利投入使用的大型視場全景巡天望遠鏡(Large Synoptic Survey Telescope)能在五天之內就獲得同樣多的信息。

早期數字信息的數量是不多的。對於長期在網上衝浪和購書的人來說,那只是一個微小的部分。事實上,在1986年的時候,世界上約40%的計算能力都被運用在袖珍計算器上,那時候,所有個人電腦的處理能力之和還沒有所有袖珍計算器處理能力之和高。但是因為數字數據的快速增長,整個局勢很快就顛倒過來了。按照希爾伯特的說法,數字數據的數量每三年多就會翻一倍。相反,模擬數據的數量則基本上沒有增加。
2009年出現了一種新的流感病毒。這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點,在短短几周之內迅速傳播開來。全球的公共衛生機構都擔心一場致命的流行病即將來襲。有的評論家甚至警告說,可能會爆發大規模流感,類似於1918年在西班牙爆發的影響了5億人口並奪走了數千萬人性命的大規模流感。更糟糕的是,我們還沒有研發出對抗這種新型流感病毒的疫苗。公共衛生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先知道這種流感出現在哪裡。
如果數百萬條電子醫療記錄顯示橙汁和阿司匹林的特定組合可以治療癌症,那麼找出具體的藥理機制就沒有這種治療方法本身來得重要。同樣,只要我們知道什麼時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們「是什麼」而不是「為什麼」。在大數據時代,我們不必知道現象背後的原因,我們只要讓數據自己發聲。
他的話既正確又不完全正確。你回想一下壁畫上的那匹馬。當時要畫一幅馬需要花費很久的時間,而現在不需要那麼久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現在我們能每秒鐘播放24幅不同形態的馬的圖片,這就是一種由量變導致的質變:一部電影與一幅靜態的畫有本質上的區別!大數據也一樣,量變導致質變。物理學和生物學都告訴我們,當我們改變規模時,事物的狀態有時也會發生改變。
在了解和監視人類的行為方面,社會已經有了數千年的經驗。但是,如何來監管一個演算法系統呢?在信息化時代的早期,有一些政策專家就看到了信息化給人們的隱私權帶來的威脅,社會也已經建立起了龐大的規則體系來保障個人的信息安全。但是在大數據時代,這些規則都成了無用的馬其諾防線。人們自願在網路上分享信息,而這種分享的能力成為了網路服務的一個中心特徵,而不再是一個需要規避的薄弱點了。
信息社會所帶來的好處是顯而易見的:每個人口袋裡都揣有一部手機,每台辦公桌上都放有一台電腦,每間辦公室內都擁有一個大型區域網。但是,信息本身的用處卻並沒有如此引人注目。半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化還導致了信息形態的變化——量變引發了質變。最先經歷信息爆炸的學科,如天文學和基因學,創造出了「大數據」這個概念。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。

大數據洞察

這僅僅只是一個開始,大數據時代對我們的生活,以及與世界交流的方式都提出了挑戰。最驚人的是,社會需要放棄它對因果關係的渴求,而僅需關注相關關係。也就是說只需要知道是什麼,而不需要知道為什麼。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。

當然,人類從數千年前就開始分析數據。古代美索不達米亞平原的記賬人員為了有效地跟蹤記錄信息發明了書寫。自從聖經時代開始,政府就通過進行人口普查來建立大型的國民資料庫。兩百多年來,精算師們也一直通過搜集大量的數據來進行風險規避。
政府機構和社會在控制和處理數據的方法上必須有全方位的改變。不可否認,我們進入了一個用數據進行預測的時代,雖然我們可能無法解釋其背後的原因。如果一個醫生只要求病人遵從醫囑,卻沒法說明醫學干預的合理性的話,情況會怎麼樣呢?實際上,這是依靠大數據取得病理分析的醫生們一定會做的事情。還有司法系統的「合理證據」是不是應該改為「可能證據」呢?如果真是這樣,會對人類自由和尊嚴產生什麼影響呢?
達到精確需要有專業的資料庫。針對小數據量和特定事情,追求精確性依然是可行的,九_九_藏_書比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在這個大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。
大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……
我們不再需要在還沒有收集數據之前,就把我們的分析建立在早已設立的少量假設的基礎之上。讓數據發聲,我們會注意到很多以前從來沒有意識到的聯繫的存在。
1994年,埃齊奧尼幫助創建了最早的互聯網搜索引擎MetaCrawler,該引擎後來被InfoSpace公司收購。他聯合創立了第一個大型比價網站Netbot,後來把它賣給了Excite公司。他創立的從文本中挖掘信息的公司ClearForest則被路透社收購了。在他眼中,世界就是一系列的大數據問題,而且他認為自己有能力解決這些問題。作為哈佛大學首屆計算機科學專業的本科畢業生,自1986年畢業以來,他也一直致力於解決這些問題。
就像互聯網通過給計算機添加通信功能而改變了世界,大數據也將改變我們生活中最重要的方面,因為它為我們的生活創造了前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。
從科學研究到醫療保險,從銀行業到互聯網,各個不同的領域都在講述著一個類似的故事,那就是爆髮式增長的數據量。這種增長超過了我們創造機器的速度,甚至超過了我們的想象。
今天,一種可能的方式是,亦是本書採取的方式,認為大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。大數據是人們獲得新的認知、創造新的價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關係的方法。
大數據的核心就是預測。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。相反,它是把數學演算法運用到海量的數據上來預測事情發生的可能性。一封郵件被作為垃圾郵件過濾掉的可能性,輸入的「teh」應該是「the」的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麼他亂穿馬路時,車子就只需要稍稍減速就好。這些預測系統之所以能夠成功,關鍵在於它們是建立在海量數據的基礎之上的。此外,隨著系統接收到的數據越來越多,它們可以聰明到自動搜索最好的信號和模式,並自己改善自己。
第二個改變就是,研究數據如此之多,以至於我們不再熱衷於追求精確度。這部分內容將在第2章闡述。當我們測量事物的能力受限時,關注最重要的事情和獲取最精確的結果是可取的。如果購買者不知道牛群里有80頭牛還是100頭牛,那麼交易就無法進行。直到今天,我們的數字技術依然建立在精準的基礎上。我們假設只要電子數據表格把數據排序,資料庫引擎就可以找出和我們檢索的內容完全一致的檢索記錄。
大數據不僅改變了公共衛生領域,整個商業領域都因為大數據而重新洗牌。購買飛機票就是一個很好的例子。

預測,大數據的核心

大數據,開啟重大的時代轉型

大數據,變革公共衛生

我們就以納米技術為例。納米技術專註于把東西變小而不是變大。其原理就是當事物到達分子的級別時,它的物理性質就會發生改變。一旦你知道這些新的性質,你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數據量時,我們就可以做很多在小數據量的基礎上無法完成的事情。
事情真的在快速發展。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發展的衝擊。
埃齊奧尼創立了一個預測系統,它幫助虛擬的乘客節省了很多錢。這個預測系統建立在41天之內的12000個價格樣本基礎之上,而這些數據都是從一個旅遊網站上爬取過來的。這個預測系統並不能說明原因,只能推測會發生什麼。也就是說,它不知道是哪些因素導致了機票價格的波動。機票降價是因為有很多沒賣掉的座位、季節性原因,還是所謂的「周六晚上不出門」,它都不知道。這個系統只知道利用其他航班的數據來預測未來機票價格的走勢。「買還是不買,這是一個問題。」埃齊奧尼沉思著。他給這個研究項目取了一個非常貼切的名字,叫「哈姆雷特」。

大數據的力量

據他估算,2007年,人類大約存儲了超過300艾位元組的數據。下面這個比喻應該可以幫助人們更容易地理解這意味著什麼了。一部完整的數字電影可以壓縮成一個GB的文件,而一個艾位元組相當於10億GB,一個澤位元組則相當於1024艾位元組。總之,這是一個非常龐大的數量。

儘管我們仍處於大數據時代來臨的前夕,但我們的日常生活已經離不開它了。垃圾郵件過濾器可以自動過濾垃圾郵件,儘管它並不知道「發#票#銷#售」是「發票銷售」的一種變體。交友網站根據個人的性格與之前成功配對的情侶之間的關聯來進行新的配對。具有「自動改正」功能的智能手機通過分析我們以前的輸入,將個性化的新單詞添加到手機詞典里。然而,對於這些數據的利用還僅僅只是一個九*九*藏*書開始。從可以自動轉彎和剎車的汽車,到IBM沃森超級電腦在遊戲節目《危險邊緣》(Jeopardy)中打敗人類來看,這項技術終將改變我們所居住的星球上的許多東西。

大數據洞察

大數據的科學價值和社會價值正是體現在這裏。一方面,對大數據的掌握程度可以轉化為經濟價值的來源。另一方面,大數據已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域。

如果一張機票的平均價格呈下降趨勢,系統就會幫助用戶做出稍後再購票的明智選擇。反過來,如果一張機票的平均價格呈上漲趨勢,系統就會提醒用戶立刻購買該機票。換言之,這是埃齊奧尼針對9000米高空開發的一個加強版的信息預測系統。這確實是一個浩大的計算機科學項目。不過,這個項目是可行的。於是,埃齊奧尼開始著手啟動這個項目。
我們沒有辦法準確描述現在正在發生的一切,但是在第4章將提到的「數據化」概念可以幫助我們大致了解這次變革。數據化意味著我們要從一切太陽底下的事物中汲取信息,甚至包括很多我們以前認為和「信息」根本搭不上邊的事情。比方說,一個人所在的位置、引擎的振動、橋樑的承重等。我們要通過量化的方法把這些內容轉化為數據。這就使得我們可以嘗試許多以前無法做到的事情,如根據引擎的散熱和振動來預測引擎是否會出現故障。這樣,我們就激發出了這些數據此前未被挖掘的潛在價值。
尋找原因是一種現代社會的一神論,大數據推翻了這個論斷。但我們又陷入了一個歷史的困境,那就是我們活在一個「上帝已死」的時代。也就是說,我們曾經堅守的信念動搖了。諷刺的是,這些信念正在被「更好」的證據所取代。那麼,從經驗中得來的與證據相矛盾的直覺、信念和迷惘應該充當什麼角色呢?當世界由探求因果關係變成挖掘相關關係,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類前行的基石,又取得實際的進步呢?本書意在解釋我們身在何處,我們從何而來,並且提供當下亟需的指導,以應對眼前的利益和危險。
大數據開啟了一次重大的時代轉型。與其他新技術一樣,大數據也必然要經歷矽谷臭名昭著的技術成熟度曲線:經過新聞媒體和學術會議的大肆宣傳之後,新技術趨勢一下子跌到谷底,許多數據創業公司變得岌岌可危。當然,不管是過熱期還是幻想破滅期,都非常不利於我們正確理解正在發生的變革的重要性。
例如,對沖基金通過剖析社交網路Twitter上的數據信息來預測股市的表現;亞馬遜和奈飛(Netflix)根據用戶在其網站上的類似查詢來進行產品推薦;Twitter,Facebook和LinkedIn通過用戶的社交網路圖來得知用戶的喜好。
所以,2009年甲型H1N1流感爆發的時候,與習慣性滯后的官方數據相比,谷歌成為了一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常有價值的數據信息。驚人的是,谷歌公司的方法甚至不需要分發口腔試紙和聯繫醫生——它是建立在大數據的基礎之上的。這是當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。基於這樣的技術理念和數據儲備,下一次流感來襲的時候,世界將會擁有一種更好的預測工具,以預防流感的傳播。
大數據並非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的MapReduce和開源Hadoop平台(最初源於雅虎)。這些技術使得人們可以處理的數據量大大增加。更重要的是,這些數據不再需要用傳統的資料庫表格來整齊地排列——一些可以消除僵化的層次結構和一致性的技術也出現了。同時,因為互聯網公司可以收集大量有價值的數據,而且有利用這些數據的強烈的利益驅動力,所以互聯網公司順理成章地成為了最新處理技術的領頭實踐者。它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜使用者。
大數據對個人的影響是最驚人的。在一個可能性和相關性佔主導地位的世界里,專業性變得不那麼重要了。行業專家不會消失,但是他們必須與數據表達的信息進行博弈。如同在電影《點球成金》(Moneyball)里,棒球星探們在統計學家面前相形見絀——直覺的判斷被迫讓位於精準的數據分析。這將迫使人們調整在管理、決策、人力資源和教育方面的傳統理念。
互聯網公司更是要被數據淹沒了。谷歌公司每天要處理超過24拍位元組的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。Facebook這個創立時間不足十年的公司,每天更新的照片量超過1000萬張,每天人們在網站上點擊「喜歡」(Like)按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數據線索。與此同時,谷歌子公司YouTube每月接待多達8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。Twitter上的信息量幾乎每年翻一番,截止到2012年,每天都會發布超過4億條微博。
在甲型H1N1流感爆發的幾周前,互聯網巨頭谷歌公司的工程師們在《自然》雜誌上發表了一篇引人注目的論文。它令公共衛生官員們和計算機科學家們感到震驚。文中解釋了谷歌為什麼能夠預測冬季流感的傳播:不僅是全美範圍的傳播,而且可以具體到特定的地區和州。谷歌通過觀察人們在網上的搜索記錄來完成這個預測,而這種方法以前一九九藏書直是被忽略的。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成這項工作。
大數據紛繁多樣,優劣摻雜,分佈在全球多個伺服器上。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,只是不再沉迷於此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
【大數據先鋒】
谷歌搜索與流感預測
Farecast與飛機票價預測系統
天文學,信息爆炸的起源
模擬時代的數據收集和分析極其耗時耗力,新問題的出現通常要求我們重新收集和分析數據。數字化的到來使得數據管理效率又向前邁出了重要的一步。數字化將模擬數據轉換成計算機可以讀取的數字數據,使得存儲和處理這些數據變得既便宜又容易,從而大大提高了數據管理效率。過去需要幾年時間才能完成的數據搜集,現在只要幾天就能完成。但是,光有改變還遠遠不夠。數據分析者太沉浸於模擬數據時代的設想,即資料庫只有單一的用途和價值,而正是我們使用的技術和方法加深了這種偏見。雖然數字化是促成向大數據轉變的重要原因,但僅有計算機的存在卻不足以實現大數據。
2003年,奧倫·埃齊奧尼(Oren Etzioni)準備乘坐從西雅圖到洛杉磯的飛機去參加弟弟的婚禮。他知道飛機票越早預訂越便宜,於是他在這個大喜日子來臨之前的幾個月,就在網上預訂了一張去洛杉磯的機票。在飛機上,埃齊奧尼好奇地問鄰座的乘客花了多少錢購買機票。當得知雖然那個人的機票比他買得更晚,但是票價卻比他便宜得多時,他感到非常氣憤。於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜。
雖然谷歌公司的員工猜測,特定的檢索詞條是為了在網路上得到關於流感的信息,如「哪些是治療咳嗽和發熱的藥物」,但是找出這些詞條並不是重點,他們也不知道哪些詞條更重要。更關鍵的是,他們建立的系統並不依賴於這樣的語義理解。他們設立的這個系統唯一關注的就是特定檢索詞條的使用頻率與流感在時間和空間上的傳播之間的聯繫。谷歌公司為了測試這些檢索詞條,總共處理了4.5億個不同的數學模型。在將得出的預測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,谷歌公司發現,他們的軟體發現了45條檢索詞條的組合,將它們用於一個特定的數學模型后,他們的預測與官方數據的相關性高達97%。和疾控中心一樣,他們也能判斷出流感是從哪裡傳播出來的,而且判斷非常及時,不會像疾控中心一樣要在流感爆發一兩周之後才可以做到。
第5章和第6章將講述大數據如何改變了商業、市場和社會的本質。20世紀,價值已經從實體基建轉變為無形財產,從土地和工廠轉變為品牌和產權。如今,一個新的轉變正在進行,那就是電腦存儲和分析數據的方法取代電腦硬體成為了價值的源泉。數據成為了有價值的公司資產、重要的經濟投入和新型商業模式的基石。雖然數據還沒有被列入企業的資產負債表,但這隻是一個時間問題。
把眼光放遠一點,我們可以把時下的信息洪流與1439年前後古登堡發明印刷機時造成的信息爆炸相對比。歷史學家伊麗莎白·愛森斯坦(Elizabeth Eisenstein)發現,1453—1503年,這50年之間大約有800萬本書籍被印刷,比1200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還佔據了世界上相當部分的信息存儲份額),而如今大約每三年就能增長一倍。
大數據標志著人類在尋求量化和認識世界的道路上前進了一大步。過去不可計量、存儲、分析和共享的很多東西都被數據化了。擁有大量的數據和更多不那麼精確的數據為我們理解世界打開了一扇新的大門。社會因此放棄了尋找因果關係的傳統偏好,開始挖掘相關關係的好處。
天文學領域的變化在各個領域都在發生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對鹼基對的排序。大約十年之後,世界範圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數學模型和演算法之上的計算機程序自動完成的。這些程序運用海量數據來預測利益和降低風險。
人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之後,數據就會被認為已經沒有用處了。比方說,在飛機降落之後,票價數據就沒有用了(對谷歌而言,則是一個檢索命令完成之後)。
我們周圍到底有多少數據?增長的速度有多快?許多人試圖測量出一個確切的數字。儘管測量的對象和方法有所不同,但他們都獲得了不同程度的成功。南加利福尼亞大學安嫩伯格通信學院的馬丁·希爾伯特(Martin Hilbert)進行了一個比較全面的研究,他試圖得出人類所創造、存儲和傳播的一切信息的確切數目。他的研究範圍不僅包括書籍、圖畫、電子郵件、照片、音樂、視頻(模擬和數字),還包括電子遊戲、電話、汽車導航和信件。馬丁·希爾伯特還以收視率和收聽率為基礎,對電視、電台這些廣播媒體進行了研究。
飛機著陸之後,埃齊奧尼下定決心要幫助人們開發一個系統,用來推測當前網頁上的機票價格是否合理。作為一種商品,同一架飛機上每個座位的價格本來不應該有差別。但實際上,價格卻千差萬別,其中緣由只有航空公司自己清楚。

大數據的力量

到2013年,世界上存儲的數據預計能達到約1.2澤位元組,其中非數字數據只佔不到2%。

這樣大的數據量意味著什麼?如果把這些數據全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光碟上,這些光碟可以堆成五堆,每一堆都可以伸到月球。公元前3世紀,埃及的托勒密二世竭力收集了當時所有的書寫作品,所以偉大的亞歷山大圖書館可以代表世界上所有的知識量。但當數字數據洪流席捲世界之後,每個地球人都可以獲得大量數據信息,相當於當時亞歷山大圖書館存儲的數據總量的320倍之多。

https://read.99csw.com
大數據的精髓在於我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法。
對於萬有引力產生的約束效果而言,生物體的大小是非常重要的。類似地,對於信息而言,規模也是非常重要的。谷歌能夠幾近完美地給出和基於大量真實病例信息所得到的流感情況一致的結果,而且幾乎是實時的,比疾控中心快多了。同樣,Farecast可以預測機票價格的波動,從而讓消費者真正在經濟上獲利。它們之所以如此給力,都因為存在供其分析的數千億計的數據項。

大數據洞察

如今,數據已經成為了一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,一旦思維轉變過來,數據就能被巧妙地用來激發新產品和新型服務。數據的奧妙只為謙遜、願意聆聽且掌握了聆聽手段的人所知。

這種思維方式適用於掌握「小數據量」的情況,因為需要分析的數據很少,所以我們必須儘可能精準地量化我們的記錄。在某些方面,我們已經意識到了差別。例如,一個小商店在晚上打烊的時候要把收銀台里的每分錢都數清楚,但是我們不會、也不可能用「分」這個單位去精確度量國民生產總值。隨著規模的擴大,對精確度的痴迷將減弱。

大數據洞察

大數據給社會帶來的益處將是多方面的。因為大數據已經成為解決緊迫世界性問題,如抑制全球變暖、消除疾病、提高執政能力和發展經濟的一個有力武器。但是大數據時代也向我們提出了挑戰,我們需要做好充足的準備迎接大數據技術給我們的機構和自身帶來的改變。

有趣的是,在2007年,所有數據中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據,其餘全部是數字數據。但在不久之前,情況卻完全不是這樣的。雖然1960年就有了「信息時代」和「數字村鎮」的概念,但實際上,這些概念仍然是相當新穎的。甚至在2000年的時候,數字存儲信息仍只佔全球數據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。
就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海量數據的新技術將幫助我們更好地理解世界——這種理解世界的新方法我們現在才意識到。本書旨在如實表達出大數據的內涵,而不會過分熱捧它。當然,真正的革命並不在於分析數據的機器,而在於數據本身和我們如何運用數據。
有時候,我們認為約束我們生活的那些限制,對於世間萬物都有著同樣的約束力。事實上,儘管規律相同,但是我們能夠感受到的約束,很可能只對我們這樣尺度的事物起作用。對於人類來說,唯一一個最重要的物理定律便是萬有引力定律。這個定律無時無刻不在控制著我們。但對於細小的昆蟲來說,重力是無關緊要的。對它們而言,物理宇宙中有效的約束是表面張力,這個張力可以讓它們在水上自由行走而不會掉下去。但人類對於表面張力毫不在意。
第一個轉變就是,在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機採樣。這部分內容將在第1章闡述。19世紀以來,當面臨大量數據時,社會都依賴於採樣分析。但是採樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物。以前我們通常把這看成是理所當然的限制,但高性能數字技術的流行讓我們意識到,這其實是一種人為的限制。與局限在小數據範圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節——大數據讓我們更清楚地看到了樣本無法揭示的細節信息。
在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。計算機系統可以發揮作用的領域遠遠不止駕駛和交友,還有更多更複雜的任務。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯網站排序,Facebook知道我們的喜好,而LinkedIn可以猜出我們認識誰。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。