0%
喜憂參半的大數據時代

喜憂參半的大數據時代

作者:萬潔
目前,為了揭示宏偉壯闊的宇宙的本質和規模,天文界的許多創新目標都是繪製宇宙星空圖。距我們銀河系最近的大型星系團是室女座星系團,它的規模是銀河系的2000倍。「新一代室女座星系團觀察」(NGVS)組織認為,大數據機器學習是繪製室女座星系團星空圖項目的關鍵。於是,該組織先是通過CFHT天文望遠鏡(Canada-France-Hawaii Telescope)完成了主要的數據收集工作。觀測得到的每幅原始圖像約為1.6GB,因此每周需要分析的數據會增加數百TB。然後,項目負責人利用加拿大天文研究先進網路(CANFAR,首個專門針對天文學的雲計算平台,旨在為全球的天文學家存儲、共享和分析數據)識別出圖像中真正屬於室女座星系團的天體。
此外,大家還可以在網上看到一個全球恐怖事件資料庫(http://www.start.umd.edu/gtd/)。該資料庫共收錄了從1970年至2012年間超過11.3萬起恐怖事件,包括事件的時間、地點、所使用的武器、目標類型等。
2012年,奧巴馬政府更是將「大數據戰略」上升為最高國策,認為大數據是「未來的新石油」,將對數據的佔有和控製作為陸權、海權、空權之外的另一種國家核心能力。
2011年上映的一部懸疑科幻電影《永無止境》中,潦倒的作家艾迪服用了一種正處於試驗階段的神奇藍色藥物——NZT。服用后,他發現自己變得精力充沛,思維清晰,行動敏捷,甚至一些平時不易留意的細節和信息,他都能在瞬間將其重新組合整理並得出推論。後來,他利用這種高智商炒股:先是在短時間內掌握無數公司的資料和背景,將包括公司財報、電視、舊報紙、互聯網中的數據和小道消息在內的數據挖掘出來,再聯繫起來,甚至從Facebook、Twitter的海量社交數據中得到普通大眾對某種股票的感情傾向,結果在十天內就賺取了200萬美元,神奇的表現讓身邊的職業投資者們目瞪口呆。這部電影完全可以看作是大數據預測魔力的宣傳片。
「基地」三部曲的首部《基地》出版於1951年,而在六十三年後的今天,「心理史學」已經不再是科幻,而是搖身一變,以「大數據」的面貌頻頻出現在我們的視野里。
2007年,美國聯邦調查局計劃建立一個大型反恐資料庫,以便搜索和分析潛伏在美國境內的恐怖分子。在2008年財政年度預算中,聯邦調查局向國會read.99csw.com申請了1200萬美元專項資金,成立了一個名為「國家安全部門分析中心」的電腦資料庫,計劃在未來五年內收集60億項記錄,其中包括許多美國居民的個人數據和資料。聯邦調查局宣稱,這一資料庫建成后,將能提升政府現有的數據分析能力,更好地找到個人、地點和事件之間的關聯,從而更易於發現潛伏在美國境內的恐怖分子。
「大數據」雖然給人們帶來了很多便利,但是一想到誰掌握了大數據和相關分析技術,誰就有了預測未來、呼風喚雨的本事,是不是感到有些毛骨悚然呢?而且這個「誰」不一定是人,十有八九是冰冷的「超級計算機」。到時候,也許人的命運就會被計算機掌握。
最神的大數據應用——關聯與預測
打開人人網,頁面上會推薦你可能認識的人,其中不乏你失去聯繫多年的同學和朋友;打開亞馬遜,頁面上會向你推薦一些商品,其中很可能就有你最近正打算購買的東西。你可能還沒有搞清楚什麼是大數據,但實際上,你已經被它重重包圍了。
在2008年的動作科幻片《鷹眼》中,軍方建立了一套系統,主要用於反恐。前端的視頻採集點遍布全球每個角落,通過分析採集點獲取的原始信息可以判斷是否為恐怖組織或恐怖行動。在2011年首播的美劇《疑犯追蹤》里,美國政府遭遇「9·11」恐怖襲擊后,打造了一台可以每時每刻監視所有人的「機器」以偵測恐怖行動,同時也能預先察覺普通的犯罪行為。
大家還記得《終結者》系列電影中的「天網」嗎?那是美國軍方的一個智能軍事防禦系統,它連接了從B2隱形轟炸機到核彈的所有軍事設備。其設計初衷是消除人為錯誤和應對突發事件的反應延遲,以保證快速有效地反制敵人的進攻。但「天網」後來擁有了自主意識,並認定人類是其威脅,開始操控並生產其他機器人和計算機系統對人類實施攻擊。在「天網」控制的T型機器人的追殺下,人類反抗軍不得不躲到地下。
總之,任何一種技術都是雙刃劍,我們享受著「大數據時代」的便利的同時,也要警惕隨之而來的威脅。
隨著人類發現的星系越來越多,為它們進行分類的工作量也越來越龐大,於是天文學家將目光投向了公眾。2007年7月,一項稱為「星系動物園」的計劃在互聯網上啟動了。志願者只需要登錄網站(www.galaxyzoo.org)進行註冊,並接受一些簡單培訓,就可以逐個識別照片中的星系。網站開張不到二十四小時九九藏書,就以每小時收到7萬例分類的速度一路推進,第一年就獲得了超過五千萬例星系分類結果,志願者人數超過15萬。「星系動物園」項目打破了大數據的規矩:它沒有對數據進行大規模的挖掘,而是把圖像交給眾多志願者,由他們對星系做基礎性的分類。通過志願者們積累的龐大數據是計算機學習分類的理想資料,軟體通過志願者一次又一次的點擊,學會了分析這些大數據之後,項目就將關閉。
——北師大文學院教授 吳岩
一個完全測序的人類基因組包含100GB—1000GB的數據量。人類有99.9%的DNA是相同的,假設對許多病人進行全基因組序列分析,將會發現那0.1%的差異能夠用來預測和治療許多疾病,其中包括癌症。從計算能力這方面來說,已經有專門的硬體用於加快基因組數據分析的速度。在過去的十年間,人類基因組的排序成本只有原來的十萬分之一,分析時間從13年縮短到了3天以內。
幸運的是,目前我們還沒有如此強大的超級計算機。但在這個世界里,你買了什麼東西,花了多少錢,喜歡瀏覽什麼網站,在哪個頁面上停留了多長時間,等等,這些數據都會被收集起來。這些私人信息被收集起來後會提供給誰?會繼續保持匿名,還是在使用后被刪除?你無從得知。而且,在這個一切都計算好的世界里,創意、靈感和驚喜在哪裡?隱私又怎麼保障呢?
《鷹眼》一開始,男主人公被無端陷害,網路賬戶里突然冒出巨款,家中堆滿了郵寄過來的武器,因此遭到FBI的追捕。女主人公被要挾,她的兒子性命堪憂。這一切使得男女主人公不得不按照一個個莫名電話的指令去完成一個任務。然而操控他們的,不是人,而是一台電腦,準確地說,是一個雲計算中心。這個叫做「鷹眼」的系統不僅能夠控制門禁系統限制人員的出入、進入銀行系統修改賬戶信息、進入交通系統改變紅綠燈的狀態,還能進入機場安檢系統改變掃描儀的圖像。其程序不僅完全脫離人的指揮自行運轉,而且變成了控制人類的機器。
最玄的大數據應用——生物與天文
艾薩克·阿西莫夫的著名系列科幻小說《基地》中有一位年輕有為的數學家——哈里·謝頓,他在銀河帝國首都川陀星球帝國的「十年大會」上發表了一篇論文,文中論證了用數學預測未來發展的若干趨勢的可行性及其實現的概率,並將其命名為「心理史學」。心理史學是結合統計學、社會read.99csw.com學與心理學,預測人類平均行為和分析未來世界文明的方法。
在天文學方面,大數據的重要意義在於,它提供了一種加速我們探索宇宙的方式。
2003年算是大數據發展過程中的一個裡程碑。那一年,第一例人類基因組完成了測序。繼那次突破性的進展后,數以千計的人類、靈長類、老鼠和細菌的基因組擴充著人們所掌握的資料庫。每個基因組都有幾十億個「字母」,計算時出現紕漏的危險又催生了生物信息學——這一學科藉助軟體、硬體以及複雜演算法之力,支撐著新的科學類型。
人類文明的發展過程始終伴隨著隱私的犧牲。在這個時代,我們坐在寫字樓的小格間中,雙手敲著鍵盤,兩眼盯著屏幕,離開網路就等於和世界失去聯繫:購買衣物在網上,出行訂票在網上,團購美食券在網上,社交相親在網上,讀書學習在網上,就連離開辦公桌去吃飯,都要拍照發微博或者分享到朋友圈。而我們的每一個行為,都會被記錄,被整理,被分析……

無處不在的大數據

研究人員發現,機器學習,這種源自人工智慧的先進分析方法,在精確識別銀河系以及繪製完整的室女座星系團星空圖方面是最為高效的解決方案。藉助這一強大的自動化處理能力,天文學家可以將精力放在繪製和研究室女座星系團方面,而不用再把大量的精力浪費在篩選星系團成員上。
最早提出大數據概念的學科是天文學和基因學,這兩門學科從誕生之日起就依賴基於海量數據的分析方法。後來,計算機實現了數據的數字化,互聯網實現了數據的網路化,二者相結合才賦予了大數據生命力。
從上面的例子中我們不難看出,「大數據」並不單純是維基百科中所說的「所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理並整理成為幫助企業經營決策更積極目的的資訊」。換言之,大數據並不是數據本身,而是一種思維方式,它令人著迷的地方在於用科學的方法挑戰了預測學,幫助人們發現未知、進行決策。
而在現實中,美國早已採用了類似的技術手段對龐大的數據進行分析整理,用於鑒別犯罪行為、偵破案件和反恐。
——阿里巴巴集團、淘寶網、支付寶創始人 馬雲
2013年,微軟紐約研究院經濟學家大衛·羅斯柴爾德利用博彩網站、好萊塢證券交易所、各個前哨獎項(如金球獎)、公開的用戶數據等等,建立起極其複雜的數九-九-藏-書據模型,並且不斷更新數據、校正誤差、升級模型,最終猜中了奧斯卡全部24個獎項中19個的歸屬。今年的奧斯卡他再接再厲,猜中了21項奧斯卡獎。
早在2003年,美國《華盛頓郵報》就報道稱,佛羅里達州警方於一年前啟動了名為「黑客帝國」的秘密計劃——他們建立了一個和著名科幻電影《黑客帝國》同名的大型反恐資料庫,這個資料庫系統搜集了該州幾乎所有成年公民的私人信息,因此,它可以在極短的時間內迅速發現各類異常事件和可疑人物,從而避免恐怖事件或犯罪行為的發生。而且,正是在開發該系統的公司的幫助下,美國情報機構才得以將幾名「9·11」劫機犯以及他們同夥的犯罪記錄一一聯繫起來。
2011年,美國加州聖克魯茲市的警察局對一個名為「PredPol」的犯罪預測軟體進行了測試。結果顯示,該軟體可根據此前犯罪活動發生的時間和地點進行預測,同時參考與犯罪行為和犯罪模式有關的社會學信息,可大幅降低犯罪率。最初,聖克魯茲警察局利用「PredPol」預測哪些地區有可能發生入室行竊和搶劫車輛的案件。該市大約100名巡警在巡邏時會有針對性地出巡,他們攜帶的電子卡上會顯示附近最有可能發生罪案的15處地點。而在絕大多數的情況(準確率超過三分之二)下,大數據演算法預測的罪案都確實發生了。採用「PredPol」后的一年時間里,該市的入室盜竊案件減少了11%,偷車案減少了8%。相應的,逮捕罪犯的成功率則提高了56%。現在,美國已經有超過10個城市的警察局引入了這個大數據演算法,其中包括洛杉磯、波士頓和芝加哥。
如果說當前科幻文學已經走入一種新科幻的時代,那麼我更希望定義這種新科幻為「大數據科幻」。
目前,根據哈佛大學教授斯威尼的研究,只要知道一個人的年齡、性別和郵編,並與公開的資料庫交叉對比,便可識別出87%的人的身份。這意味著,人類隱私權的最後一道防線同樣脆弱得不堪一擊。這樣的事實,令人如何不心驚膽戰?
電影《少數派報告》的世界里,人類已經能通過機器人——「先知」海量檢索和觀測人類腦波,發現並找出具有犯罪預謀的人,在他們的犯罪行為發生前使其終止,而罪責的判定也是基於對個人未來行為的預測。判定一個人是否有殺人企圖,需要三個「先知」一起做出決定。當出現分歧時,按少數服從多數原則定案,但最後若證明少數那一方是正確的話,則會秘九*九*藏*書密保存一份少數派報告。當男主人公一覺醒來發現自己被當成了嫌犯追捕,他只能東躲西藏,想方設法尋找那份報告,以證明自己的清白。在影片中,掌握數據、預測未來的「先知」可謂一手遮天。
2012年美國總統大選,人們普遍認為奧巴馬和羅姆尼的選情很接近,評論員們都無法預計哪方會獲勝。35歲的數學天才納特·席爾瓦以主要民調機構在各州不斷更新的訪查結果數據為基礎,在投票當天成功預測奧巴馬將有90.9%的機會獲得大多數選票。最後結果顯示,他對美國50個州投票結果的預測全對了。
大家還沒搞清PC時代的時候,移動互聯網來了;還沒搞清移動互聯網的時候,大數據時代來了。
最酷的大數據應用——治安與反恐
「大數據」這一概念被中國大眾熟知,得益於英國驚悚政治劇《紙牌屋》的熱播。據稱,《紙牌屋》的出品方兼播放平台網飛公司在美國有2700萬個訂閱用戶,用戶每天在其網站上都會產生三千多萬個反饋行為,比如收藏、暫停、回放或者快進等。此外,訂閱用戶每天還會給出四百萬個評分和三百萬次搜索請求。這些都被網飛公司轉化成代碼,當做內容生產的元素記錄下來。早些年,這些數據被用於精準推薦,隨著數據挖掘技術的日漸成熟,網飛公司開始將其用於倒推前台的影片生產。從對海量用戶數據的分析中,網飛公司得出結論:人們對早期的英劇《紙牌屋》、導演大衛·芬奇和奧斯卡影帝凱文·史派西的期待值出現了高度重合。於是,他們推出了這部由大衛·芬奇導演、凱文·史派西主演的翻拍版《紙牌屋》並獲得了成功。

什麼是大數據?

大家以為大數據還只是一個熱門話題或者前衛概念嗎?當然不是。我們的生活中,它的影子無處不在。
蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌症抗爭的過程中就採用了這種方法,他是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。他不僅得到了含有一系列標記的樣本,還得到了包括整個基因密碼的數據文檔。因此,他的醫生們能夠根據他的特定基因組成,按所需效果給葯,如果癌症病變導致藥物失效,醫生可以及時更換另一種葯。喬布斯曾笑稱:「我要麼是第一個通過這種方法戰勝癌症的人,要麼就是最後一個因為這種方法死於癌症的人。」雖然最後他的願望都沒有實現,但這種獲得所有數據而不僅是樣本的方法,還是將他的生命延長了好幾年。

是福音還是潘多拉魔盒?