0%
結語 正在發生的未來

結語 正在發生的未來

2011年6月,弗勞爾和他的小夥子們開始啟用他們的系統和方法。他們每周瀏覽一次可歸為「非法改建」一類的投訴,將他們認為前5%有火災危險的投訴轉交給檢查員立刻跟進。當拿回結果時,所有人都驚呆了。
他主要負責後勤事務,而不是相關的法律工作。他負責將證人運送到綠色|區域,其間需要安全通過無數每天都會上演的簡易爆炸裝置襲擊(IED)。他看到了軍隊人員是如何將這當作數據問題來進行處理的。情報分析員結合實地考察報告和過去IED襲擊地點、時間和人員傷亡的詳細信息,據此預測一天中最安全的運送路線。
他們最早處理的事件之一是「非法改建」,即將一套住房隔出很多小房間,這樣就能夠多容納10倍的人。非法改建會帶來巨大的火災隱患,也是犯罪、毒品、疾病和蟲害孵化的溫床。亂麻一般的分機線繩會沿牆壁穿過,電爐可能會放在床單的上面,一旦發生火災,人也許會被裹得緊緊地葬身火海。2005年,兩名消防隊員因營救非法改建住房的人而死亡。紐約市每年會受到約25000起非法改建的投訴,但只有200名檢察員在處理這些事情。似乎沒有什麼好辦法來區分簡單的滋擾事件和嚴重的爆炸起火事件。但對弗勞爾和他的小夥子們來說,這看起來更像是一個可以用大量數據來解決的問題。
沒有什麼是上天註定的,因為我們總能就手中的信息制定出相應的對策。大數據預測結果也並非鐵定,而只是提供了一種可能性,也就是說,只要我們願意,結局可以改寫。我們可以判斷出迎接未來的最佳方式,搖身變作未來的主人,正如莫里在海與風的廣闊世界中乘風破浪一般。在過程中我們無須理解宇宙的奧秘或是去證明神的存在,因為大數據已經幫我們做好了。
大數據是一種資源,也是一種工具。它告知信息但不解釋信息。它指導人們去理解,但有時也會引起誤解,這取決於是否被正確使用。大數據的力量是那麼耀眼,我們必須避免被它的光芒誘惑,並善於發現它固有的瑕疵。

大數據洞察

大數據並不是一個充斥著運演算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創造力、直覺和天賦。偶爾也會帶來屈辱或固執的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應該樂於接受類似的不準確,因為不準確正是我們之所以為人的特徵之一。就好像我們學習處理混亂數據一樣,因為這些數據服務的是更加廣大的目標。畢竟混亂構成了世界的本質,也構成了人腦的本質,而無論是世界的混亂還是人腦的混亂,學會接受和應用它們才能得益。

麥克·弗勞爾(Mike Flower)是21世紀初曼哈頓地區檢察官辦公室的一名律師,負責過從謀殺案到華爾街金融犯罪等各式各樣的訴訟案件,後來他轉到一家大型的企業律師事務所工作。在辦公桌后度過了無聊的一年後,他決定離開。他想做些更有意義的事情,隨即想到了去幫助重建伊拉克。在公司的一位朋友給高層打了幾個電話后,弗勞爾被派去了綠色|區域,也就是美軍駐巴格達市中心的安全地帶,成為薩達姆·海珊審判律師團中的一名律師。
大數據並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數據為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
這些相關性能讓我們節省機票錢和預測流感爆發,並知道在一個資源有限的世界中應該檢查哪些沙井蓋和過度擁擠的建築物。它可以幫助健康保險公司不做體檢就能決定保險覆蓋面,並降低提醒病人服藥的成本。通過大數據的相關性,語言可以得到翻譯,汽車可以在預測的基礎上自行駕駛。沃爾瑪可以了解颶風前應在門店準備哪種口味的蛋撻。當然,如果能從中得到因果關係更好。問題是,因果關係往往很難找到,通常我們認為找到了的時候,都是在自欺欺人。九*九*藏*書
雖然我們可以塑造當下,但未來卻從過去的「完全可預測」轉變為一塊開放又原始、廣闊而空白的帆布,所有人都可以在上面依據自己的價值,努力裁剪塑形。「現代」的一個定義性特徵便是人類感到自己是命運的主人,這使我們與生活在宿命論桎梏中的先輩們截然不同。但是大數據預測卻又使我們的生命帆布不再那麼開放、原始和純凈。對於善於運用科技解讀未來的人來說,我們的未來不再是隻字未書的畫布,而是似乎已經著上了淡淡的墨痕。未來的可預知性似乎縮小了塑造命運的空間。潛在的可能性在概率的聖壇上被解剖。
儘管如此,他們並不滿足於僅僅對數據進行運算,而是會到現場觀看檢查員的工作。他們不斷做著大量筆記,並詢問一切流程的開展效果。當一個頭髮斑白的領頭人哼了一聲說「找到那個建築不是問題」時,他們很想知道為什麼這個人會這麼自信。但領頭人自己也說不清楚為什麼,不過弗勞爾的小夥子們漸漸發現,這種直覺來自建築物外新的磚工,它暗示著建築物的主人很重視這個地方。

大數據洞察

現在,我們可以獲得比以前更多的信息並進行分析。在我們詮釋世界時,數據不再是限制我們努力的因素了。我們可以利用更多的數據,某些情況下,甚至是全部數據。但是這需要我們採取非傳統的方法,特別是要改變我們理想中構成有用信息的因素。

大數據在實用層面的影響很廣泛,解決了大量的日常問題。大數據更是利害攸關的,它將重塑我們的生活、工作和思維方式。在某些方面,我們面臨著一個僵局,比其他劃時代創新引起的社會信息範圍和規模急劇擴大所帶來的影響更大。我們腳下的地面正在移動。過去確定無疑的事情正在受到質疑。大數據需要人們重新討論決策、命運和正義的性質。我們的世界觀正受到相關性優勢的挑戰。擁有知識曾意味著掌握過去,現在則更意味著能夠預測未來。
他們將城市裡的90萬棟建築都列在表上,然後輸入來自19個不同機構的數據集。這些數據顯示了建築業主是否拖欠了應繳房產稅,是否有止贖訴訟,是否有公用設施使用異常或導致服務消減的未付款項。他們還輸入了建築類型、修建時間、救護車訪問次數、犯罪率和嚙齒動物投訴等信息。然後,他們將這些數據與五年來的火災嚴重性排名數據進行對比並得到一個模型,以此預測哪些投訴迫切需要調查。

大數據的力量

在大數據分析之前,檢查員會先跟進他們認為最急迫的投訴,而只有13%的案件足夠嚴重,需要立刻去處理。現在,他們立即處理的投訴案件占他們所有安全監測的70%。大數據節省了檢查員的時間,將效率提高到原來的5倍。他們的工作也越來越令人滿意:精力都集中於最嚴重的問題。他們新發現的成果還帶來了額外利益。非法改建中的火災更可能導致消防員受傷或死亡,概率是普通案件的15倍。消防局因此非常滿意。弗勞爾和他的小夥子們就好像巫師一樣,手中的水晶球讓他們可以預見未來,看到哪裡是最危險的。他們利用了大量擱置多年的數據,這些數據自收集以來幾乎沒被用過。他們用新的方法管理這些信息,從而提取出它們真正的價值。他們從大的信息庫中釋放了洞察力,而這在較小數據中是做不到的,這就是大數據的縮影。

小夥子們回到自己的工作間,鑽研著如何能將「新的磚工」作為一種信號融入到他們的模型中,畢竟,磚塊是沒有被數據化的。但是可九-九-藏-書以肯定的是,做任何外部磚工都需要城市許可證。這些信息都可以用於提高系統的預測功能,並且他們發現,很多傳統意義上可疑的特點其實都無關緊要。
在這個利用數據做出決定的世界里,人類存在的目的是什麼?難道是為了運用直覺和違背事實?如果所有人都訴諸數據,都利用工具,那時人類的無法預測性即直覺、冒險精神、意外和錯誤等,反倒可能發揮出重大作用。
無論大數據如何威脅到隱私保護,最讓人們頭疼的都是行為傾向問題。大數據預測的準確性越來越高,它能夠預測行為的發生,在人們犯錯之前,提前懲處。因為預測的結果幾乎不可反駁,人們也就無法為自己開脫。但這種基於預測得出的懲罰不僅違背自由意志的原則,同時也否定了人們會突然改變選擇的可能性(無論可能性有多小)。當我們給一個人判定責任(並給予懲罰)時,必須牢記人類意志的神聖不可侵犯性。人類的未來必須保留部分空間,允許我們按照自己的願望進行塑造。否則,大數據將會扭曲人類最本質的東西,即理性思維和自由選擇。
最初,許多數據形式都不可用。例如,在一個城市裡,描述地理位置的方法不是唯一的,每個機構和部門似乎都有自己的描述方式。建築部門給予每個建築物一個獨特的號碼;房屋維護部門也有自己獨有的編號系統;稅務部門依照街區和地皮,給予每個建築物特定的標識;警察局採用笛卡爾坐標系;消防局依託「電話亭」臨近體系,將建築物與各個消防站的位置聯繫在一起,儘管這些電話亭並非真實存在。弗勞爾的小夥子們處理這種不統一的方式是:以笛卡爾坐標係為基礎,取用建築物周圍的一片輻射範圍並從其他機構的資料庫調取地理位置數據,從而建立一個系統。這些數據本身並不精確,但是巨大的信息量彌補了這點瑕疵。
在一個預測的時代里,人類的自由意志神聖而不可侵犯,這一點不可輕視。我們不僅需要承認個人進行道德選擇的能力,還要強調個人應為自我行為承擔責任。社會則必須採取新的保護措施:接受一種新的職業人,也就是數據演算法師,對大數據進行深度分析。如此,因為大數據而變得可預測的世界,才不會陷入一個用一種未知取代另一種未知的困境中,不會變成一個黑匣子。

更大的數據源於人本身

其實,事實很有可能是相反的。知道行為在未來如何謝幕,我們便可以採取補救措施,避免問題發生並改善結局。我們能在期末考試之前早早發現有退步趨勢的學生。我們能檢測到微小的癌變,趕在疾病完全爆發前根治。我們能看到青春期意外妊娠的可能性,或是預測到某種犯罪生涯,然後儘力干預,避免出現可能的悲劇結局。例如擁擠的紐約住宅著火的時候,如果能事先知道並從幾間最可能是火源的公寓著手,將會免除一場致命的火災。
當我們準備開發電子商務、寓生活于互聯網、進入計算機時代或者拿起算盤時,這些事情比那些代表他們的問題更加重要。我們尋找原因的想法可能被高估了,很多情況下,弄清楚「是什麼」比找尋「為什麼」更加重要,因為前者表明事實才是我們生活和思維的基礎。這些問題可能沒有答案。或許,它們是關於人在宇宙中的位置以及能否在喧囂混亂、不可理喻的世界中尋找到意義這一永恆爭論的一部分。
大數據能幫助我們更好地進行已有的工作,並處理全新的事務。但它絕不是魔術棒,不會帶來世界和平,無法根絕貧窮問題,更不能創造出另一個畢加索。大數據不能造嬰兒,雖然它確實可以救助早產兒。不要多久,我們將在生活的各個方面使用到大數據,如果不用的話還可能會引起些許焦慮,這種情況就像普通體檢查不出問題時,會希望有醫生幫我們預約X光進行檢查。
如果真變成這樣,為人類開九_九_藏_書闢出一塊領地,為直覺、常識和意外運氣騰出空間就十分必要,以確保它們不被數據和機器回答擠兌出去。人類最偉大之處正是運演算法和矽片沒有揭示也無法揭示的東西,因為數據也無法捕捉到這些。並不是「人類最偉大的東西是什麼」,而是「什麼不是人類最偉大的產物」——真空、人行道上的裂縫、未說出口的話還是未想到的事?
大數據改造了我們的生活,它能優化、提高、高效化並最終捕捉住利益,那直覺、信仰、不確定性和創意還能扮演什麼角色呢?

凡是過去,皆為序曲

應對大數據的洶湧來襲,我們沒有萬無一失的方法,必須建立規範自身的新準則。隨著社會越來越熟悉大數據的特徵和缺陷,我們可以改變一系列的慣例來幫助社會應對這種衝擊。我們需要把進行隱私保護的責任從個人轉移到數據使用者身上,也就是說,數據使用者應該以負責任的態度使用數據。
「我對因果關係不感興趣,除非它用行動說話。」弗勞爾解釋道。「因果關係是別人的事,坦白說,談論因果關係是非常冒險的。我不認為有人提出房產止贖程序和那個地方是否長期存在結構性的火災風險之間有任何關係。我認為這麼想很愚蠢。他們會認為有一些潛在的因素,但沒有人會站出來承認。我不想深究這個,我需要一個能夠把握的特定數據點來告訴我它的意義。如果它很重要,我們就會採取行動。如果不重要,我們就不會行動。你知道,我們有真正需要解決的問題。我不會閑逛,或者像現在一樣想著因果關係的事兒。」
大數據也被用於發展經濟和理解如何預防衝突。基於手機動向數據顯示,非洲許多貧民窟地區經濟活動十分活躍。大數據還揭示了最可能引發種族關係緊張的社區以及解除難民危機的方式。只有當科技應用至生活的方方面面時,大數據的使用範圍才能進一步擴大。

大數據洞察

我們「做新、做多、做好、做快」的能力能釋放出無限價值,產生新的贏家和輸家。大部分的信息價值來自二級用途,即潛在價值,而不是我們所習慣認為的基本用途。結果,對於大多數數據來說,儘可能多地收集、等待信息增值並且讓其他更適合挖掘其價值的人來分析它才是明智之舉(前提是此人能夠分享開發出的利潤)。

我們之所以能做所有這些事,新工具只是個很小的因素,無論是更快的處理器、更多的存儲器,還是更智能的軟體和演算法。這些固然重要,但是更為根本的原因是我們擁有了更多的數據,繼而世界上更多的事物被數據化了。誠然,人類量化世界的雄心先於計算機革命,但是數字工具將數據化提升到了新的高度。不僅行動電話能夠跟蹤到我們呼叫的人和我們所在的位置,而且同樣的數據也能用於斷定我們是否生病了。不久之後,它或許還能夠辨別我們是否戀愛了。
能置身於信息流中央並且能收集數據的公司通常會繁榮興旺。有效利用大數據需要專業技術和豐富的想象力,即一個能容納大數據的心態,但價值的核心歸功於數據本身。有時,重要的資產並不僅僅是能清楚看到的信息,更是從人們與信息交互中收集到的數據廢氣,聰明的公司可以用它來改善現有的服務,或推出全新的服務。
與此同時,大數據又意味著我們將永遠受困於過去的行為,這些行為在預知我們下一步動作的預測過程中與我們作對,即我們永遠無法逃避已發生的事。莎士比亞曾寫道:「凡是過去,皆為序曲。」大數據通過運算將這句話銘刻,無論結果好壞——無論這句話是否會澆熄我們迎接下一個日出的熱情,是否會打擊我們留名於世的渴望。
當大數據成為日常生活的一部分后,它將會極大地改變我們對未來的看法。大約五百年前,歐洲在逐漸發展為更加自由、科學、文明的世界的進程中,歐洲人經歷了對時間認知的重大轉變。在此之前,時間被認為是循環的,生命也是輪轉的。每天或每年與過去的日子如出一轍,甚至連生命的終結也與起點相似,因為瀕死的成人會顯https://read.99csw•com示出孩子的特徵。認知轉變后,時間變作線性的,成了一條歲月演變過程,過程中世界因人變化,生命的軌跡也受到相應的影響。如果說這以前的歷史中,過去、當下、未來的概念是完全交織在一起的,那麼通過塑造當下,人類現在便有了過去可以回顧,有了未來可以展望。
大數據將成為理解和解決當今許多緊迫的全球問題所不可或缺的重要工具。例如要應對氣候變化問題時,需要對污染相關數據進行分析,得出最佳方案,來指導努力方向,找出緩解問題的方法。全球範圍內遍布的大量感測設備,包括智能手機內部的感測器,使我們能夠以更高的細節水平模擬環境。而世界貧困人口迫切需要提高醫療保健服務,降低醫療費用,這很大程度上可以靠自動化來實現。當下許多似乎需要人類判斷才能進行的事情,其實完全可以交由電腦來做,比如癌細胞活檢、傳染病爆發前期的模式預測等。
紐約市分析鍊金師的經驗凸顯了本書中的不少主題。他們使用了龐大的數據量,而不僅是一些數據。他們所列的城市建築基本上可以視為「樣本=總體」。位置信息或救護車記錄等數據比較凌亂,但是這並沒讓他們就此放棄。更多數據所帶來的好處遠比原始信息少所帶來的弊端更重要。他們之所以能取得成功,是因為城市的很多功能都以數據的形式呈現(儘管存在不一致),從而使他們能夠處理和使用這些信息來提高預測效果。
我們能收集和處理的數據只是世界上極其微小的一部分。這些信息不過是現實的投影——柏拉圖洞穴上的陰影罷了。因為我們無法獲得完美的信息,所以做出的預測本身就不可靠。但這也不代表預測就一定是錯的,只是永遠不能做到完善。這也並未否定大數據的判斷,而只是讓大數據發揮出了應有的作用。大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。
弗勞爾為了找到合適的人而廣泛撒網。「我對經驗豐富的統計學家沒有興趣,我擔心他們不願意採取這種新方法來解決問題。」當他採訪統計學家對金融詐騙項目的看法時,他們往往會提出晦澀難懂的數學問題。「我甚至沒有想到我要使用什麼樣的模式。我想要可執行的洞察力,這是我所關注的。」他說。最後,弗勞爾一共挑選了5個人組成團隊,他稱他們為「小夥子」。除一名成員外,其他都是剛畢業一兩年的經濟學專業學生,而且從未在大城市生活過,但他們都很有創造力。

大數據時代,名副其實的「信息社會」

除了糾結于數據的準確性、正確性、純潔度和嚴格度之外,我們也應該容許一些不精確的存在。數據不可能是完全對或完全錯的。當數據的規模以數量級增加時,這些混亂也就算不上問題了。事實上,它甚至可以是有好處的,因為當我們只想使用一小部分時,無須捕捉這麼多的知識細節。又因為我們可以用更快更便宜的方式找到數據的相關性,並且效果往往更好,而不必努力去尋找因果關係。當然在某些情況下,我們仍然需要精心策劃的數據來做因果關係研究和控制實驗,如測試藥物的副作用或設計關鍵的飛機部件。但是在日常情況下,知道「是什麼」就已經足夠,不必非要弄清楚「為什麼」。大數據的相關性將人們指向了比探討因果關係更有前景的領域。
專家暗示,無論是自大的統計學家還是專管投訴熱線的公務員,在數據驅動方法面前都應退居次席。與此同時,弗勞爾和他的小夥子們不斷地讓經驗豐富的檢查員來測試他們的模型,借鑒檢察員們的經驗,使系統表現得更好。這個項目成功最重要的原因是,它更多依賴的是相關關係而非因果關係。
最終,大數據標志著「信息社會」終於名副其實。我們收集的所有數字信息現在都可以用新的方式加以利用。我們可以嘗試新的事物並開啟新的價值形式。但是,這需要一種新的思維方式,並將挑戰我們的社會機構,甚至挑戰我們的認同感。可以肯定的是,數據量將繼續增長,處理這一切的能力也是如此。但是,現在大多數人都認為大數據是一個技術問題read.99csw.com,應側重於硬體或軟體,而我們認為應當更多地考慮當數據說話時會發生什麼。
就算大數據無法教會我們所有事情,只要能幫助我們表現更佳、更富效率、取得進步,就算缺乏深入理解也是很有用的了。一貫如是地堅持下去才有效力。即使你不明白為什麼付出的努力得不到回報,但相比不努力,你要明白你已經在改善事情的結局了。紐約的弗勞爾和他的「小夥子們」也許並沒有聖人聖明的判斷力,但他們確實在拯救生命。大數據不會即刻提高效率,但經受住時間的考驗后,它將生出智慧的結晶。
大數據同時也給我們帶來了巨大的風險。它使得目前用以保護隱私的法律手段和核心技術失去了效果。過去個人身份信息包含的是名字、社會安全號碼、稅收記錄等,其構成簡單明了。因此隱私保護相對比較簡單,只要確保不使用這些信息即可。而今天,即使是最無害的數據,只要被數據收集器採集到足夠的量,也會暴露出個人身份。匿名化或是單純隱藏已不再適用。不僅如此,現在要是對某人進行監督,必定會侵犯到較之以往範圍更廣的個人隱私內容。因為政府在管理上不僅要求個人信息儘可能完善,還記錄了其所有的社會關係、交往和交流信息。
科技再先進也無法將世界上數據的總量(即最終的樣本=總體)盡數收集、儲存和加工。例如,歐洲粒子物理研究所(CERN)位於日內瓦的粒子物理實驗室在試驗中只能收集到不到0.1%的反饋信息,其餘信息將同潛在的知識一起消失在乙醚中。這種情況司空見慣。從羅盤和六分儀,到望遠鏡和雷達,再到今天的全球定位系統,人們總是受到現有測量和認知工具的局限。我們明天使用的工具很可能比今天的強大數倍甚至上千倍,我們現在所擁有的知識較之明天可能就顯得微不足道了。要不了多久,當我們回看當今的大數據世界時,就像在看阿波羅11號上僅4Kb內存的導航控制計算機一樣,會覺得十分奇特。
這種分析法或許揭示了:有些歷史最悠久的做事方法並不是最好的,就好比《點球成金》中的球探們不得不接受他們直覺中的缺陷一樣。例如,人們將城市「311」投訴熱線的來電數量作為衡量問題嚴重性的指標,來電越多說明問題越嚴重。但是這種引導是錯誤的。在繁華的上東區發現一隻老鼠也許會在僅僅一個小時之內引發30個投訴電話。然而在布朗克斯區,街坊只有在看到成群結隊的老鼠時,才會覺得有必要打個投訴電話。同樣,很多非法改建的投訴也許會讓人們議論紛紛,但是其後果並沒有那麼嚴重。
這為「社會進步」的概念提供了重要啟示。大數據讓我們試驗的速度更快,發現的線索更多。這理應能夠產生更多的創新成果,但發明的火花卻往往存在於數據未顯示出的信息之中,因為它並非真實存在,是多大量的數據都永遠無法確定或證實的。如果亨利·福特問大數據他的顧客想要的是什麼,大數據將會回答,「一匹更快的馬。」在大數據的世界中,包括創意、直覺、冒險精神和知識野心在內的人類特性的培養顯得尤為重要,因為進步正是源自我們的獨創性。
在弗勞爾回到紐約兩年後,他意識到這些方法其實是一個打擊犯罪的有力方式——比他過去作為檢察官所掌握的方式更棒。弗勞爾之後被任命為專案組成員,研究可能揭露2009年次貸醜聞罪犯的數據。這個團隊做得非常出色,以至於一年後,紐約市長布隆伯格要求擴大規模。弗勞爾成了全市首個「分析主任」,他的任務就是找到最優秀的數據科學家並組建團隊,利用城市尚未開發的信息庫,收穫一切可能的效益。