0%
第三部分 大數據時代的管理變革 07 風險:讓數據主宰一切的隱憂

第三部分 大數據時代的管理變革

07 風險:讓數據主宰一切的隱憂

麥克納馬拉是典型的20世紀經理人——完全依賴數字而非感情的理智型高管,他可以把他的數控理論運用到任何領域。1960年,他被任命為福特汽車公司的總裁,在位只有幾周,他就被肯尼迪總統任命為美國國防部部長。
必須杜絕對數據的過分依賴,以防我們重蹈伊卡洛斯的覆轍。他就是因為過分相信自己的飛行技術,最終誤用了數據而落入了海中。下一章,我們將探討如何讓數據為我們所用,而不讓我們成為數據的奴隸。
不過,雖然企業和政府擁有的這種採集個人信息的能力,讓我們感到很困擾,但也還是沒有大數據所引起的另一個新問題讓我們更恐慌,那就是用預測來判斷我們。
大數據大大地威脅到了我們的隱私和自由,這都是大數據帶來的新威脅。但是與此同時,它也加劇了一箇舊威脅:過於依賴數據,而數據遠遠沒有我們所想的那麼可靠。要揭示大數據分析的不可靠性,恐怕沒有比羅伯特·麥克納馬拉(Robert McNamara)的例子更貼切的了。
德國統一20年之後,更多的個人信息被採集和存儲了下來。我們時刻都暴露在「第三隻眼」之下,不管我們是在用信用卡支付、打電話還是使用身份證。2007年,英國的一家報社曾諷刺地報道,在喬治·奧威爾創作《一九八四》的地方,也就是他的倫敦公寓外60米範圍內,起碼有30多架攝像機在監視著他的一舉一動。
事隔僅僅兩個月之後,也就是2006年10月,DVD租賃商奈飛公司做了一件差不多的事,就是宣布啟動「Netflix Prize」演算法競賽。該公司公布了大約來自50萬用戶的一億條租賃記錄,並且公開懸賞100萬美金,舉辦一個軟體設計大賽來提高他們的電影推薦系統的準確度,勝利的條件是把準確度提高10%。同樣,奈飛公司也對數據進行了精心的匿名化處理。然而還是被一個用戶認出來了,一個化名「無名氏」的未出櫃的同性戀母親起訴了奈飛公司,她來自保守的美國中西部。
我們傾向於從數字數據的增長和奧威爾寫《1984》時所處「監視煉獄」的角度去理解大數據給個人隱私帶來的威脅。但是事實上,不是所有的數據都包含了個人信息。其實,不管是感測器從煉油廠採集的數據、來自工廠的機器數據、機場的氣象數據,還是沙井蓋爆炸數據都不包含個人信息。英國石油公司和紐約愛迪生聯合電力公司不需要(也不想要)個人信息,就能分析挖掘出他們所需要的數據價值。事實上,這方面的數據分析並不威脅個人隱私。
在里士滿市的另一個項目中,警察把犯罪數據與其他數據相關聯,比方說市裡的大公司何時給員工發工資,當地舉辦音樂會或者運動賽事的時間。這證實了警方對犯罪趨勢的預測,有時也會幫助警方推算出更準確的犯罪趨勢。例如,里士滿市的警察一直覺得在槍擊事件之後會出現一個犯罪高峰期,大數據證明了這種想法,但是也發現了一個漏洞,即高峰不是緊隨槍擊事件而來的,而是兩個星期之後才會出現。
就像福特的員工將零件投入河中一樣,下級軍官為了達成命令或者陞官,會彙報可觀的數字給他們的上級,只要那是他們的上級希望聽到的數字。麥克納馬拉和他身邊的人都依賴並且執迷於數據,他認為只有通過電子錶格上有序的行、列、計算和圖表才能真正了解戰場上發生了什麼。他認為掌握了數據,也就進一步接近了真理(上帝)。
與數據為伴的人可以用一句話來概括這些問題,「錯誤的前提導致錯誤的結論。」有時候,是因為用來分析的數據質量不佳;但在大部分情況下,是因為我們誤用了數據分析結果。大數據要麼會讓這些問題高頻出現,要麼會加劇這些問題導致的不良後果。
詹姆斯·斯科特(James Scott)教授是耶魯大學政治學和人類學教授,他在《國家的視角》(Seeing Like a State)一書中記錄了政府如何因為它們對量化和數據的盲目崇尚而陷人民的生活於水深火熱之中。
但是,主要的問題並不是出在社會需要面對更多威脅上,而是我們在人們真正犯罪之前對他進行懲罰否定了人的自由權利。我們永遠不會知道這個受懲罰的人是否會真正犯罪,因為我們已經通過預測預先制止了這種行為,如此一來,我們就沒有讓他按照他的意願去做,但是我們卻依然堅持他應該為自己尚未實施的未來行為付出代價,而我們的預測也永遠無法得到證實。
我們在書中舉過無數谷歌的例子,我們明白它的一切運作都是基於數據基礎之上的。很明顯,它大部分的成功都是數據造就的,但是偶爾谷歌也會因為數據栽跟頭。
基於未來可能行為之上的懲罰是對公平正義的褻瀆,因為公平正義的基礎是人只有做了某事才需要對它負責。畢竟,想做而未做不是犯罪。社會關於個人責任的基本信條是,人為其選擇的行為承擔責任。如果有人在被別人用槍威脅的情況下打開了公司的保險柜,他並不需要承擔責任,因為他別無選擇。
麥克納馬拉對數字的執迷從年輕的時候就開始了,當時他還是哈佛商學院的學生,後來,他以24歲的年紀成為了最年輕的副教授。第二次世界大戰期間,他把這種嚴密的數字意識運用到了工作之中,當時他是五角大樓里被稱為「統計控制隊」中的一名精英,這個隊伍讓世界權力的中心人物都開始依靠數據進行決策。在這之前,部隊一直很盲目。比方說,它們不知道飛機備用零件的種類、數量和放置位置。1943年製作的綜合清單為部隊節省了36億美元。現代戰爭需要資源的合理分配,他們所做的非常了不起。
進行大數據分析的人可以輕鬆地看到大數據的價值潛力,這極大地刺|激著他們進一步採集、存儲、循環利用我們個人數據的野心。隨著存儲成本read•99csw•com繼續暴跌而分析工具越來越先進,採集和存儲數據的數量和規模將爆髮式地增長。如果說在互聯網時代我們的隱私受到了威脅,那麼大數據時代是否會加深這種威脅呢?這就是大數據的不利影響嗎?
2009年,谷歌首席設計師道格·鮑曼(Doug Bowman)因為受不了隨時隨地的量化,憤然離職。「最近,我們竟然爭辯邊框是用3、4還是5倍像素,我居然被要求證明我的選擇的正確性。天吶!我沒辦法在這樣的環境中工作,」她離職后在博客上面大發牢騷,「谷歌完全是工程師的天下,所以只會用工程師的觀點解決問題——把所有決策簡化成一個邏輯問題。數據成為了一切決策的主宰,束縛住了整個公司。」

我們的隱私被二次利用了

儘管如此,《紐約時報》還是在幾天之內通過把「60歲的單身男性」、「有益健康的茶葉」、「利爾本的園丁」等搜索記錄綜合分析考慮后,發現資料庫中的4417749號代表的是喬治亞州利爾本的一個62歲寡婦塞爾瑪·阿諾德(Thelma Arnold)。當記者找到她家的時候,這個老人驚嘆道:「天吶!我真沒想到一直有人在監視我的私人生活。」這引起了公憤,最終美國在線的首席技術官和另外兩名員工都被開除了。
其實,我們一直在用「畫像」來幫助我們確定個人的罪責,大數據所做的並沒有本質的差別,只是讓這種方法更完善、更精準、更具體和更個性化。因此,如果大數據預測只是幫助我們預防不良行為,我們似乎是可以接受的。但是,倘若我們使用大數據預測來判定某人有罪並對其尚未實施的行為進行懲罰,就可能讓我們陷入一個危險的境地。
這是一個典型的滑坡,可能直接導致《少數派報告》中的情況成為現實——我們將生活在一個沒有獨立選擇和自由意志的社會,在這裏我們的道德指標將被預測系統所取代,個人一直受到集體意志的衝擊。簡單地說,如果一切都成為現實,大數據就會把我們禁錮在可能性之中。
互聯網出現之前,如艾可飛和益百利這樣的專業數據收集公司就採集、記錄了全球範圍內大約幾百萬人口的數據,而它們提供的每個人的個人數據就多達好幾百份。而互聯網的出現使得監視變得更容易、成本更低廉也更有用處。如今,已經不只是政府在暗中監視我們了。亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,Twitter竊聽到了我們心中的「TA」,Facebook似乎什麼都知道,包括我們的社交關係網。
我們可能覺得,這種做法很合理,但是事實上,這是完全錯誤的。相關性並不意味著有因果關係。通過這種方式找出的人,可能根本就沒有感染流感。他們只是被預測所害,更重要的是,他們成了誇大數據作用同時又沒有領會數據真諦的人的替罪羊。谷歌流感趨勢的核心思想是這些檢索詞條和流感爆發相關,但是這也可能只是醫療護工在辦公室聽到有人打噴嚏,然後上網查詢如何防止自身感染,而不是因為他們自己真的生病了。
這是電影《少數派報告》(Minority Report)開始時的場景,這部電影描述的是一個未來可以準確預知的世界,而罪犯在實施犯罪前就已受到了懲罰。人們不是因為所做而受到懲罰,而是因為將做,即使他們事實上並沒有犯罪。雖然電影中預測依靠的不是數據分析,而是三個超自然人的想象,但是《少數派報告》所描述的這個令人不安的社會正是不受限制的大數據分析可能會導致的:罪責的判定是基於對個人未來行為的預測。
同時,那些嘗到大數據益處的人,可能會把大數據運用到它不適用的領域,而且可能會過分膨脹對大數據分析結果的信賴。隨著大數據預測的改進,我們會越來越想從大數據中掘金,最終導致一種盲目崇拜,畢竟它是如此的無所不能。這就是我們必須從麥克納馬拉的故事中引以為戒的。
20世紀70年代,羅伯特·麥克納馬拉一直擔任世界銀行行長。20世紀80年代,他儼然變成了和平的象徵。他為反核武器和環境保護搖旗吶喊。然後,他經歷了一次思想的轉變並且出版了一本回憶錄《回顧:越戰的悲劇與教訓》(In Retrospect:The Tragedy and Lessons of Vietnam),書中批判了戰爭的錯誤指導思想並承認了他當年的行為「非常錯誤」,他寫道,「我們錯了,大錯特錯!」但書中還是只承認了戰爭的整體策略的錯誤,並未具體流露出對數據和「死亡人數」飽含感情的懺悔。他承認統計數據具有「誤導或者迷惑性」,「但是對於你能計算的事情,你應該計算;死亡數就屬於應該計算的……」2009年,享年93歲的麥克納馬拉去世,他被認為是一個聰明卻並不睿智的人。

數據獨裁

麥克納馬拉對數據的執迷迅速升溫,開始凡事都考慮數據集。工廠經理迅速地生成麥克納馬拉所要求的數字,不管對錯。他規定只有在舊車型的所有零件的存貨用完之後才能生產新車型,憤怒的生產線經理們一股腦將剩餘的零件全部倒進了附近的河裡。當前線員工把數據返回的時候,總部的高管們都滿意地點了點頭,因為規定執行得很到位。但是工廠里盛行一個笑話,是說河面上可以走人了,因為河裡有很多1950年或者1951年生產的車型的零件,在河面上走就是在生鏽的零件上走。
如果大數據分析完全準確,那麼我們的未來會被精準地預測,因此在未來,我們不僅會失去選擇的權利,而且會按照預測去行動。如果精準的預測成為現實的話,我們也就失去了自由意志,失去了自由選擇生活的權利。既然我們別無選擇,那麼我們也就不需要承擔責任,這不是很諷刺嗎?
同樣,一開始的時候就要用戶同意所有可能的用途,也是不可行的。因為這樣一來,「告知與許可」就完全沒有意義了。大數據時代,告知與許可這個經過了考驗並且可信賴的基石,要麼太狹隘,限制了大數據潛在價值的挖掘,要麼就太空泛而無法真正地保護個人隱私。
在美國在線的案例中,我們被我們所搜索的內容出賣了。而奈飛公司的情況則是因為不同來源數據的結合暴露了我們的身份。這兩種情況的出現,都是因為公司沒有意識到匿名化對大數據的無效性。而出現這種無效性則是由兩個因素引起的,一是我們收集到的數據越來越多,二是我們會結合越來越多不同來源的數據。read.99csw•com
大數據有利於我們理解現在和預見未來的風險,如此一來,我們就可以相對應地採取應對措施。大數據預測可以幫助患者、保險公司、銀行和顧客,但是大數據不能告訴我們因果關係。相對地,進行個人罪責推定需要行為人選擇某種特定的行為,他的選擇是造成這個行為的原因。但大數據並不是建立在因果關係基礎上的,所以它完全不應該用來幫助我們進行個人罪責推定。
如何防止恐怖主義?創造一層層的禁飛名單、阻止任何與恐怖主義有關的個人搭乘飛機,這真的有用嗎?回答是:值得懷疑。想想那件非常出名的事情,馬薩諸塞州參議員特德·肯尼迪(Ted Kennedy)不就因為僅僅與該資料庫中的一個人名字相同而被誘捕、拘留並且調查了嗎?
但是在危急時刻,政府領導可能會認為只知道哪裡流感疫情最嚴重還遠遠不夠。如果試圖抑制流感的傳播,就需要更多的數據。所以他們呼籲大規模的隔離,當然不是說隔離這個地區的所有人,這樣既無必要也太費事。大數據能給我們更精確的信息,所以我們只需隔離搜索了和流感有最直接關係的人。如此,我們有了需要隔離的人的數據,聯邦特工只需通過IP地址和移動GPS提供的數據,找出該用戶並送入隔離中心。
1977年,一架直升機從西貢的美國大使館屋頂上撤離了最後一批美國公民。兩年之後,一位退休的將軍道格拉斯·金納德(Douglas Kinnard)發表了《戰爭管理者》(The War Managers)。這是一個關於將軍們對越戰看法的里程碑式的調查。它揭露了量化的困境。僅僅只有2%的美國將軍們認為用死亡人數衡量戰爭成果是有意義的,而三分之二的人認為大部分情況下數據都被誇大了。一個將軍評論稱,「那都是假的,完全沒有意義」;另一個說道,「公開撒謊」;還有一個將軍則認為是像麥克納馬拉這樣的人表現出了對數據的極大熱忱,導致很多部門一層一層地將數字擴大化了。
同時,想在大數據時代中用技術方法來保護隱私也是天方夜譚。如果所有人的信息本來都已經在資料庫里,那麼有意識地避免某些信息就是此地無銀三百兩。我們把谷歌街景作為一個例子來看,谷歌的圖像採集車在很多國家採集了道路和房屋的圖像(以及很多備受爭議的數據)。但是,德國媒體和民眾強烈地抗議了谷歌的行為,因為民眾認為這些圖片會幫助黑幫竊賊選擇有利可圖的目標。有的業主不希望他的房屋或花園出現在這些圖片上,頂著巨大的壓力,谷歌同意將他們的房屋或花園的影像模糊化。但是這種模糊化卻起到了反作用,因為你可以在街景上看到這種有意識的模糊化,對盜賊來說,這又是一個此地無銀三百兩的例子。
科羅拉多大學的法學教授保羅·歐姆(Paul Ohm),同時也是研究反匿名化危害的專家,認為針對大數據的反匿名化,現在還沒有很好的辦法。畢竟,只要有足夠的數據,那麼無論如何都做不到完全的匿名化。更糟的是,最近的研究表明,不只是傳統數據容易受到反匿名化的影響,人們的社交關係圖,也就是人們的相互聯繫也將同受其害。
更重要的是,大數據時代,很多數據在收集的時候並無意用作其他用途,而最終卻產生了很多創新性的用途。所以,公司無法告知個人尚未想到的用途,而個人亦無法同意這種尚是未知的用途。但是只要沒有得到許可,任何包含個人信息的大數據分析都需要向個人徵得同意。因此,如果谷歌要使用檢索詞預測流感的話,必須徵得數億用戶的同意,這簡直無法想象。就算沒有技術障礙,又有哪個公司能負擔得起這樣的人力物力支出呢?
2006年8月,美國在線(AOL)公布了大量的舊搜索查詢數據,本意是希望研究人員能夠從中得出有趣的見解。這個資料庫是由從3月1日到5月31日之間的65.7萬用戶的2000萬搜索查詢記錄組成的,整個資料庫進行過精心的匿名化——用戶名稱和地址等個人信息都使用特殊的數字元號進行了代替。這樣,研究人員可以把同一個人的所有搜索查詢記錄聯繫在一起來分析,而並不包含任何個人信息。
谷歌對數據的依賴有時太誇張了。瑪麗莎·邁爾(Marissa Mayer)曾任谷歌高管職位,居然要求員工測試41種藍色的陰影效果中,哪種被人們使用最頻繁,從而決定網頁工具欄的顏色。谷歌的數據獨裁就是這樣達到了頂峰,同時也激起了反抗。
大多數情況下,我們已經在以預測之名採用大數據分析。它把我們放在一個特定的人群之中來對我們進行界定。保險精算表上指出,超過50歲的男性更容易患前列腺癌,所以你如果不幸正好處於這個年齡段,就需要支付更多的保險費用,即使你根本就沒得過這個病。沒有高中文憑的人更容易償還不起債務,所以如果你沒有高中文憑,就可能貸不到款或者必須支付更高的保險費。有的人在過安檢的時候,可能會需要進行額外的檢查,僅僅是因為他帶有某種特定的特徵。
比方說,如今在美國和歐洲部署的一些智能電錶每6秒鐘採集一個實時讀數,這樣一天所得到的數據比過去傳統電錶收集到的所有數據還要多。因為每個電子設備通電時都會有自己獨特的「負荷特徵」,比如熱水器不同於電腦,而它們與Led大麻生長燈又不一樣,所以能源使用情況就能暴露諸如一個人的日常習慣、醫療條件和非法行為這樣的個人信息。
谷歌公司的創始人拉里·佩奇和謝爾蓋·布林一直強調要得到每個應聘者申請大學時的SAT成績以及大學畢業時的平均績點。他們認為,前者能彰顯潛能,後者則展現成就。因此,當40多歲、成績斐然的經理人在應聘時被問到大學成績的時候,就完全無法理解這種要求。儘管公司內部研究早就表明,工作表現和這些分數根本沒有關係,谷歌依然冥頑不化。
當然,精準的預測是不現實的。大數據分析https://read•99csw.com只能預測一個人未來很有可能進行的行為。
我們可以用大數據來預防犯罪,聽起來真不錯。畢竟在犯罪發生之前及時制止比事後再懲罰要好得多,不是嗎?因為我們避免了犯罪的發生,也就挽救了可能被傷害的人,同時社會整體也受益了。
這些系統通過預測來預防犯罪,最終要精準到誰會犯罪這個級別。這是大數據的新用途。眾多科幻小說的豐富演繹進一步揭示了機場日常安檢的平庸和困境。美國國土安全部正在研發一套名為未來行為檢測科技(Future Attribute Screening Technology,簡稱FAST)的安全系統,通過監控個人的生命體征、肢體語言和其他生理模式,發現潛在的恐怖分子。研究者認為,通過監控人類的行為可以發現他們的不良意圖。美國國土安全部聲稱,在研究測試中,系統檢測的準確度可以達到70%。(測試方法並不可知,難道是要志願者假扮恐怖分子,然後看看系統是否能發現他們的不良意圖嗎?)儘管這些研究還處於早期階段,執法者和監管部門還是對其給予了高度重視。
基於預測基礎上的懲罰似乎也是我們現在慣行方法的一種提升。現代社會是建立在預防不健康、危險和非法行為基礎上的。我們為了預防肺癌而減少吸煙率、為了避免在車禍中死亡而系安全帶、為了避免被劫機而不允許帶槍支登機,所有這些預防措施都限制了我們的自由,但是我們願意為了防止更大的災難而做出適當的犧牲。
比方說,賓夕法尼亞大學教授理查德·伯克(Richard Berk)建立了一個大數據模型,他聲稱這個模型可以預測一個判緩刑或者假釋的人一旦提前釋放會不會再次殺人。他輸入了海量的特定案件變數,包括監禁的原因、首次犯罪的時間、年齡、性別等個人數據。伯克說他的模型對未來行為預測的準確率可以達到75%。這聽起來似乎還不錯。但是,這也意味著如果假釋委員會依靠他的分析,就會在每4個人中出現一次失誤。
除了對隱私和傾向的不良影響,大數據還有一個弊端。我們冒險把罪犯的定罪權放在了數據手中,藉以表達我們對數據和我們的分析結果的崇尚,但是這實際上是一種濫用。應用得當,大數據會是我們合理決策過程中的有力武器;倘若運用不當,它就可能會變成權貴用來鎮壓民眾的工具,輕則傷害顧客和員工的利益,重則損害公民的人身安全。我們所冒的風險比想象中還要大。如果在隱私和預測方面對大數據管理不當,或者出現數據分析錯誤,會導致的不良後果比定製化的在線廣告要嚴重得多。
當然,目前所採集的大部分數據都包含有個人信息,而且存在著各種各樣的誘因,讓我們想盡辦法去採集更多、存儲更久、利用更徹底,甚至有的數據表面上並不是個人數據,但是經由大數據處理之後就可以追溯到個人了。
通過把奈飛公司的數據與其他公共數據進行對比分析,得克薩斯大學的研究人員很快發現,匿名用戶進行的收視率排名與互聯網電影資料庫(IMDb)上實名用戶所排的是匹配的。
谷歌本應該懂得抵制數據的獨裁。考試結果可能一生都不會改變,但是它並不能測試出一個人的知識深度,也展示不出一個人的人文素養,學習技能之外,科學和工程知識才是更適合考量的。谷歌在招聘人才方面如此依賴數據讓人很是費解,要知道,它的創始人可是接受過注重學習而非分數的蒙台梭利教育。谷歌就是在重蹈前人覆轍,過去美國的科技巨頭們也把個人簡歷看得比個人能力重要。如果按谷歌的做法,其創始人都沒有資格成為傳奇性的貝爾實驗室的經理,因為他們都在博士階段輟學了;比爾·蓋茨和馬克·扎克伯格也都會被淘汰,因為他們都沒有大學文憑。

大數據洞察

美國軍方在越戰時對數據的使用、濫用和誤用給我們提了一個醒,在由「小數據」時代向大數據時代轉變的過程中,我們對信息的一些局限性必須給予高度的重視。數據的質量可能會很差;可能是不客觀的;可能存在分析錯誤或者具有誤導性;更糟糕的是,數據可能根本達不到量化它的目的。

我們比想象中更容易受到數據的統治——讓數據以良莠參半的方式統治我們。其威脅就是,我們可能會完全受限於我們的分析結果,即使這個結果理應受到質疑。或者說,我們會形成一種對數據的執迷,因而僅僅為了收集數據而收集數據,或者賦予數據根本無權得到的信任。

其實,卓越的才華並不依賴於數據。史蒂夫·喬布斯多年來持續不斷地改善Mac筆記本,依賴的可能是行業分析,但是他發行的iPod、iPhone和iPad靠的就不是數據,而是直覺——他依賴於他的第六感。當記者問及喬布斯蘋果推出iPad之前做了多少市場調研時,他那個著名的回答是這樣的:「沒做!消費者沒義務去了解自己想要什麼。」
我們已經看到了這種社會模式的萌芽。30多個州的假釋委員正使用數據分析來決定是釋放還是繼續監禁某人。越來越多的美國城市,從洛杉磯的部分地區到整個裡士滿(美國弗吉尼亞州首府),都採用了「預測警務」(也就是大數據分析)來決定哪些街道、群體還是個人需要更嚴密的監控,僅僅因為演算法系統指出他們更有可能犯罪。
與25年之前的民主德國相比,現在我們所受的監控沒有減少,反而變得越來越容易、嚴密以及低成本。採集個人數據的工具就隱藏在我們日常生活所必備的工具當中,比如網頁和智能手機應用程序。我們知道大多數的汽車中都裝了一個「黑盒子」——用來監測安全氣囊激活的情況,而如今,一旦出現具有爭議的交通案件,這個黑盒子所採集的數據就可以在法庭上充當證據。當然,如果企業採集數據只是來提高績效,我們就不用像被Stasi竊聽那樣而感到那麼害怕。畢竟企業再強大,也不如國家強制力。
另一條技術途徑在大部分情況下也不可行,那就是匿名化。匿名化指的是讓所有能揭示個人情況的信息都不出現在數據集里,比方說名字、生日、住址、信用卡號或者社會保險號等。這樣一來,這些數據就可以在被分析和共享的同時,不會威脅到任何人的隱私。在小數據時代這樣確實可行,但是隨著數據量和種類的增多,大數據促進了數據內容的交叉檢驗九*九*藏*書
不過,即使它們不具備國家強制力,想到各種各樣的公司在我們不知情的情況下採集了我們日常生活方方面面的數據,並且進行了數據共享以及一些我們未知的運用,這還是很恐怖的。對大數據大加利用的不只是私營企業,政府也不甘落後。

大數據洞察

大數據替我們規避了「畫像」的缺陷,因為大數據區分的是個人而不是群體,所以我們不會再通過「牽連犯罪」給群體中的每個人都定罪。如今,一個用現金購買頭等艙單程票的阿拉伯人不會再被認為是恐怖分子而接受額外的檢查,只要他身上的其他數據表明他基本沒有恐怖主義傾向。因此,大數據通過給予我們關於個人自身更詳盡的數據信息,幫我們規避了「畫像」的缺陷——直接將群體特徵強加于個人。

大數據的力量

概括地說,研究發現每對6部不出名的電影進行排序,我們就有84%的概率可以辨認出奈飛公司這個顧客的身份。而如果我們知道這個顧客是哪天進行了排序的話,那麼他被從這個50萬人的資料庫中挑出來的概率就會高達99%。

教育似乎在走下坡路?用標準化測試來檢驗學生的表現和評定對老師或學校的獎懲是不合理的。考試是否能全面展示一個學生的能力?是否能有效檢測教學質量?是否能反映出一個有創造力、適應能力強的現代師資隊伍所需要的品質?這些都飽受爭議,但是,數據不會承認這些問題的存在。

大數據洞察

也許,大數據預測可以為我們打造一個更安全、更高效的社會,但是卻否定了我們之所以為人的重要組成部分——自由選擇的能力和行為責任自負。大數據成為了集體選擇的工具,但也放棄了我們的自由意志。

大數據的不利影響並不是大數據本身的缺陷,而是我們濫用大數據預測所導致的結果。大數據預測是建立在相關性基礎上的。讓人們為還未實施的未來行為買單是帶來不利影響的主要原因,因為我們把個人罪責判定建立在大數據預測的基礎上是不合理的。

掙脫大數據的困境

在孟菲斯市,一個名為「藍色粉碎」的項目為警員提供情報,關於哪些地方更容易發生犯罪事件,什麼時候更容易逮到罪犯。這個系統幫助執法部門更好地分配其有限的資源。這個項目自2006年啟動以來,孟菲斯的重大財產和暴力犯罪發生率約下降了26%(雖然這與這個項目不一定有因果關係)。
隨著越來越多的事物被數據化,決策者和商人所做的第一件事就是得到更多的數據。「我們相信上帝,除了上帝,其他任何人都必須用數據說話。」這是現代經理人的信仰,也迴響在矽谷的辦公室、工廠和市政廳的門廊里。善加利用,這是極好的事情,但是一旦出現不合理利用,後果將不堪設想。
這是因為在大數據時代,監控的方式已經改變了。過去,調查員為了儘可能多地知道嫌疑人的信息,需要把鱷魚夾夾到電話線上。當時最重要的是能深入調查某個人,而現在情況不一樣了,比如谷歌和Facebook的理念則是人就是社會關係、網上互動和內容搜索的加和。所以,為了全面調查一個人,調查員需要得到關於這個人的最廣泛的信息,不僅是他們認識的人,還包括這些人又認識哪些人等。過去的技術條件沒法做到這樣的分析,但是今非昔比了。
隨著越南戰爭升級和美軍加派部隊,這變成了一場意志之戰而非領土之爭。美軍的策略是逼迫越共走上談判桌。於是,評判戰爭進度的方法就是看對方的死亡人數。每天報紙都會公布死亡人數。支持戰爭的人把這作為戰爭勝利的標誌,反戰的人把它作為道德淪喪的證據。死亡人數是代表了一個時代的數據集。
這都是如今的小數據時代所採用的「畫像」背後的指導思想。在一個資料庫中找到普遍聯繫,然後對適用於這種普遍聯繫的個人深入勘察。這適用於團體內的每個人,是一條普遍規則。當然,「畫像」意義頗多,不只意味著對一個特定群體的區分,而且指「牽連犯罪」,不過這是一種濫用,所以「畫像」有嚴重的缺陷。
20世紀,我們見證了太多由於數據利用不合理所導致的慘劇。比如1943年,美國人口普查局遞交了地址數據來幫助美國政府拘留日裔美國人(當時它沒有提交街道名字和具體街號的數據,居然幻想著這樣能保護隱私);荷蘭著名的綜合民事記錄數據則被納粹分子用來搜捕猶太人;納粹集中營里罪犯的前臂上刺青的五位數號碼與IBM的霍瑞斯穿孔卡片上的號碼是一致的,這一切都表明是數據處理幫助實現了大規模的屠殺。
然而,我們要探討的主要是大數據是否改變了這種威脅的性質,而不是是否加劇了這種威脅。如果僅僅是加劇了這種威脅,那麼我們現在採用的保護隱私的法律法規依然是有效的,我們只需要付出加倍的努力來確保有效性就可以。然而,倘若威脅的性質已經改變了,我們就需要尋求新的解決方案。
如今,不再只是負責反恐的秘密機關需要採集更多的數據,所有的政府部門都需要,所以,數據採集擴展到了金融交易、醫療記錄和Facebook狀態更新等各個領域,數據量之巨可想而知。政府其實處理不了這麼多數據,那為什麼要費力採集呢?
1989年,柏林牆倒塌,之前的近40年間,民主德國國家安全局「Stasi」僱用了十萬左右的全職間諜,時刻在街上開車監視著成千上萬民眾的一舉一動。他們拆看信件、偷窺銀行賬戶信息、在民眾家中安裝竊聽器並且竊聽電話。他們還會讓情人、夫婦、父母和孩子相互監視,導致人與人之間喪失了最基本的信任。結果,詳細記錄普通人最私密生活信息的文件至少包括了3900萬張索引卡片和鋪開足有113公里長的文檔。民主德國是一個史無前例的受到如此全面監控的國家。
據《華盛頓郵報》2010年的研究表明,美國國家安全局每天攔截並存儲的電子郵件、電話和其他通信記錄多達17億條。前美國安全局官員威廉·賓尼(William Binney)估計政府採集的美國及他國公民的通信互動記錄有20萬億次之多,其中包括誰和誰通過話、發過電子郵件、進行過電匯等信息。為了弄明白這所有的數據,美國建立了龐大的數據中心,其中美國國家安全局就耗資12億美元在猶他州的威廉姆斯堡建立了一個。九_九_藏_書
大數據誘使我們犯下羅伯特·麥克納馬拉所犯的罪行,也讓我們盲目信任數據的力量和潛能而忽略了它的局限性。把大數據等同於死亡人數,我們只需要想想上文提到的谷歌流感趨勢。設想一下致命的流感正肆虐全國,而這並不是完全不可能出現的;醫學專家們會非常感激通過檢索詞條,我們能夠實時預測流感重災地,他們也就能及時去到最需要他們的地方。

大數據洞察

在大數據時代,不管是告知與許可、模糊化還是匿名化,這三大隱私保護策略都失效了。如今很多用戶都覺得自己的隱私已經受到了威脅,當大數據變得更為普遍的時候,情況將更加不堪設想。

預測與懲罰,不是因為「所做」,而是因為「將做」

大數據預測給我們帶來的威脅,不僅僅局限於司法公正上,它還會威脅到任何運用大數據預測對我們的未來行為進行罪責判定的領域,比如民事法庭案件中判定過失以及公司解僱員工的決策。
這否定了法律系統或者說我們的公平意識的基石——無罪推定原則。因為我們被追究責任,居然是為了我們可能永遠都不會實施的行為。對預測到的未來行為判罪也否認了我們進行道德選擇的能力。

無處不在的「第三隻眼」

但是這很危險,因為如果我們可以用大數據來預防犯罪,我們就可能會想進一步懲罰這個未來的罪犯。這也是符合邏輯的,因為我們會覺得如果只是阻止了他的犯罪行為而不採取懲罰措施的話,他就可能因為不受損失而再次犯罪;如果我們因為他未實施的犯罪行為而懲罰他的話,可能就會威懾到他。
答案是肯定的。大數據還會帶來更多的威脅,畢竟,大數據的核心思想就是用規模劇增來改變現狀。我們也將分析它是如何加深對我們隱私的威脅的,同時還將面對一個新的挑戰,即運用大數據預測來判斷和懲罰人類的潛在行為。這是對公平公正以及自由意志的一種褻瀆,同時也輕視了決策過程中深思熟慮的重要性。
約翰·安德頓(John Anderton)是華盛頓特區警局預防犯罪組的負責人。這是特別的一天,早上,他衝進了住在郊區的霍華德·馬克斯(Howard Marks)的家中並逮捕了他,後者打算用剪刀刺殺他的妻子,因為他發現他妻子給他戴了「綠帽子」。安德頓又防止了一起暴力犯罪案件的發生。他大聲說:「我以哥倫比亞特區預防犯罪科的名義逮捕你,你即將在今天謀殺你的妻子薩拉·馬克斯(Sarah Marks)……」其他的警察開始控制霍華德,霍華德大喊冤枉,「我什麼都沒有做啊!」
大數據為監測我們的生活提供了便利,同時也讓保護隱私的法律手段失去了應有的效力。面對大數據,保護隱私的核心技術不再適用了。同樣,通過大數據預測,對我們的未來想法而非實際行為採取懲罰措施,也讓我們惶恐不安,因為這否認了自由意志並傷害了人類尊嚴。
麻煩的是,人們習慣性地從因果關係的視角來理解世界。因此,大數據總是被濫用於因果分析,而且我們往往非常樂觀地認為,只要有了大數據預測的幫助,我們進行個人罪責判定就會更高效。
麥克納馬拉是一個執迷於數據的人。20世紀60年代早期,在越南局勢變得緊張的時候,他被任命為美國國防部長。任何事情,只要可以,他都會執意得到數據。他認為,只有運用嚴謹的統計數據,決策者才能真正理解複雜的事態並做出正確的決定。他眼中的世界就是一堆桀驁不馴的信息的總和,一旦劃定、命名、區分和量化之後,就能被人類馴服並加以利用。麥克納馬拉追求真理,而數據恰好能揭示真理。他所掌握的數據中有一份就是「死亡名單」。
不幸的是,我們的擔憂一語中的。大數據的價值不再單純來源於它的基本用途,而更多源於它的二次利用。這就顛覆了當下隱私保護法以個人為中心的思想:數據收集者必須告知個人,他們收集了哪些數據、作何用途,也必須在收集工作開始之前徵得個人的同意。雖然這不是進行合法數據收集的唯一方式,「告知與許可」已經是世界各地執行隱私政策的共識性基礎(雖然實際上很多的隱私聲明都沒有達到效果,但那是另一回事)。
戰爭結束的時候,他們決定通力合作拯救瀕臨倒閉的福特汽車公司。福特二世(Henry Ford Ⅱ)絕望地交出了自己的控制權。就像他們投入戰爭的時候完全不懂軍事一樣,這一次,他們也不關心如何製作汽車。但是奇妙的是,這群精明小子居然救活了福特公司。
這是數據獨裁放大了的寫照。同樣,也是這種自大導致美國基於死亡人數而不是更理智的衡量標準來擴大越南戰爭的規模。1976年,在與日俱增的國內壓力下,麥克納馬拉在一次演講中說道,「事實上,真的不是每一個複雜的人類情況都能簡化為曲線圖上的線條、圖表上的百分點或者資產負債表上的數字。但是如果不對可量化的事物進行量化,我們就會失去全面了解該事物的機會。」只要得到了合理的利用,而不單純只是為了「數據」而「數據」,大數據就會變成強大的武器。
我們時刻都暴露在「第三隻眼」之下:亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,而微博似乎什麼都知道,不僅竊聽到了我們心中的「TA」,還有我們的社交關係網。
它們使用地圖來確定社區重建,卻完全不知道其中民眾的生活狀態。它們使用大量的農收數據來決定採取集體農莊的方式,但是它們完全不懂農業。它們把所有人們一直以來用之交流的不健全和系統的方式按照自己的需求進行改造,只是為了滿足可量化規則的需要。在斯科特看來,大數據使用成了權力的武器。