0%
第一部分 大數據時代的思維變革 02 更雜:不是精確性,而是混雜性

第一部分 大數據時代的思維變革

02 更雜:不是精確性,而是混雜性

大數據在多大程度上優於演算法這個問題在自然語言處理上表現得很明顯(這是關於計算機如何學習和領悟我們在日常生活中使用語言的學科方向)。在2000年的時候,微軟研究中心的米歇爾·班科(Michele Banko)和埃里克·布里爾(Eric Bill)一直在尋求改進Word程序中語法檢查的方法。但是他們不能確定是努力改進現有的演算法、研發新的方法,還是添加更加細膩精緻的特點更有效。所以,在實施這些措施之前,他們決定往現有的演算法中添加更多的數據,看看會有什麼不同的變化。很多對計算機學習演算法的研究都建立在百萬字左右的語料庫基礎上。最後,他們決定往4種常見的演算法中逐漸添加數據,先是一千萬字,再到一億字,最後到十億。
帕特·赫蘭德(Pat Helland)是來自微軟的世界上最權威的資料庫設計專家之一,在一篇題為《如果你有足夠多的數據,那麼「足夠好」真的足夠好》(If You Have Too Much Data,then『Good Enough』Is Good Enough)的文章中,他把這稱為一個重大的轉變。分析了被各種各樣質量參差不齊的數據所侵蝕的傳統資料庫設計的核心原則,他得出的結論是,「我們再也不能假裝活在一個齊整的世界里」。他認為,處理海量數據會不可避免地導致部分信息的缺失。雖然這本來就是有「損耗性」的,但是能快速得到想要的結果彌補了這個缺陷。赫蘭德總結說:「略有瑕疵的答案並不會傷了商家的胃口,因為他們更看重高頻率。」
我們可以在大量數據對計算機其他領域進步的重要性上看到類似的變化。我們都知道,如摩爾定律所預測的,過去一段時間里計算機的數據處理能力得到了很大的提高。摩爾定律認為,每塊晶元上晶體管的數量每兩年就會翻一倍。這使得電腦運行更快速了,存儲空間更大了。大家沒有意識到的是,驅動各類系統的演算法也進步了——美國總統科技顧問委員會的報告顯示,在很多領域這些演算法帶來的進步還要勝過晶元的進步。然而,社會從「大數據」中所能得到的,並非來自運行更快的晶元或更好的演算法,而是更多的數據。
ZestFinance,一個由谷歌前任首席信息官道格拉斯·梅里爾創立的公司,用自己的經驗再次驗證了「寬容錯誤會給我們帶來更多價值」這一觀點。這家公司幫助決策者判斷是否應該向某些擁有不良信用記錄的人提供小額短期貸款。傳統的信用評分機制關注少量突出的事件,比如一次還款的延遲,而ZestFinance則分析了大量不那麼突出的事件。2012年,讓ZestFinance引以為豪的就是,它的貸款拖欠率比行業平均水平要低三分之一左右。唯一的得勝之道還是擁抱混雜。
同時,我們需要與各種各樣的混亂做鬥爭。混亂,簡單地說就是隨著數據的增加,錯誤率也會相應增加。所以,如果橋樑的壓力數據量增加1000倍的話,其中的部分讀數就可能是錯誤的,而且隨著讀數量的增加,錯誤率可能也會繼續增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度。例如,與伺服器處理投訴時的數據進行比較,用語音識別系統識別某個呼叫中心接到的投訴會產生一個不太準確的結果,但也是有助於我們把握整個事情的大致情況的。
大數據時代要求我們重新審視精確性的優劣。如果將傳統的思維模式運用於數字化、網路化的21世紀,就會錯過重要的信息。執迷於精確性是信息缺乏時代和模擬時代的產物。在那個信息貧乏的時代,任意一個數據點的測量情況都對結果至關重要。所以,我們需要確保每個數據的精確性,才不會導致分析結果的偏差。
相比依賴於小數據和精確性的時代,大數據因為更強調數據的完整性和混雜性,幫助我們進一步接近事實的真相。「部分」和「確切」的吸引力是可以理解的。但是,當我們的視野局限在我們可以分析和能夠確定的數據上時,我們對世界的整體理解就可能產生偏差和錯誤。不僅失去了去儘力收集一切數據的動力,也失去了從各個不同角度來觀察事物的權利。所以,局限於狹隘的小數據中,我們可以自豪于對精確性的追求,但是就算我們可以分析得到細節中的細節,也依然會錯過事物的全貌。
傳統資料庫的設計要求在不同的時間提供一致的結果。比方說,如果你查詢你的賬戶結餘,它會提供給你確切的數目;而你幾秒鐘之後查詢的時候,系統應該提供給你同樣的結果,沒有任何改變。但是,隨著數據數量的大幅增加以及系統用戶的增加,這種一致性將越來越難保持。

大數據先鋒

麻省理工與通貨緊縮預測軟體

「10億價格項目」(The Billion Prices Project,BBP)提供了一個有趣的例子。美國勞工統計局的人員每個月都要公布消費物價指數(CPI),這是用來測試通貨膨脹率的。這些數據對投資者和商家都非常重要。在決定是否增減銀行利率的時候,美聯儲也會考慮消費指數。一旦發生通貨膨脹,工人工資也會增加。聯邦政府在支付社會福利和債券利息的款項時,這項指數也是他們參考的依據。

聯邦政府為了得到這些數據,會僱用很多人向全美90個城市的商店、辦公室打電話、發傳真甚至登門拜訪。他們反饋回來的各種各樣的價格信息達80000種,包括土豆的價格、計程車的票價等。政府採集這些數據每年大概需要花費兩億五千萬美元。這些數據是精確的也是有序的,但是這個採集結果的公布會有幾周的滯后。2008年的經濟危機表明,這個滯后是致命的。政策決策者為了更好地應對變化,需要及時了解通貨膨脹率,但如果以傳統的依賴採樣和追求精確的方式進行數據收集,政府就不可能及時獲得數據了。

麻省理工學院(MIT)的兩位經濟學家,阿爾貝托·卡瓦略(Alberto Cavell)和羅伯托·里哥本(Oberto Rigobon)就對此提出了一個大數據方案,那就是接受更混亂的數據。通過一個軟體在互聯網上收集信息,他們每天可以收集到50萬種商品的價格。收集到的數據很混亂,也不是所有數據都能輕易進行比較。但是把大數據和好的分析法相結合,這個項目在2008年9月雷曼兄弟破產之後馬上就發現了通貨緊縮趨勢,然而那些依賴官方數據的人直到11月份才知道這個情況。

https://read•99csw.com
相片分享網站Flickr在2011年擁有來自大概1億用戶的60億張照片。根據預先設定好的分類來標註每張照片就沒有意義了。難道真會有人為他的照片取名「像希特勒一樣的貓」嗎?
2000年以來,商務智能和分析軟體領域的技術供應商們一直承諾給客戶「一個唯一的真理」。執行官們用這個片語並沒有諷刺的意思,現在也依然有技術供應商這樣說。他們說這個片語的意思就是,每個使用該公司信息技術系統的人都能利用同樣的數據資源,這樣市場部和營銷部的人員們就不需要再在會議開始前爭論,到底是誰掌握了正確的客戶和銷售數據了。這個想法就是說,如果他們知道的數據是一致的,那麼他們的利益也會更一致。
現在想想增加讀數頻率的這個事情。如果每隔一分鐘就測量一下溫度,我們至少還能夠保證測量結果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數可能出錯,連時間先後都可能搞混掉。試想,如果信息在網路中流動,那麼一條記錄很可能在傳輸過程中被延遲,在其到達的時候已經沒有意義了,甚至乾脆在奔涌的信息洪流中徹底迷失。雖然我們得到的信息不再那麼準確,但收集到的數量龐大的信息讓我們放棄嚴格精確的選擇變得更為划算。
在第一個例子里,我們為了獲得更廣泛的數據而犧牲了精確性,也因此看到了很多如若不然無法被關注到的細節。在第二個例子里,我們為了高頻率而放棄了精確性,結果觀察到了一些本可能被錯過的變化。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力於避免錯誤相比,對錯誤的包容會帶給我們更多好處。
接受混亂,我們就能享受極其有用的服務,這些服務如果使用傳統方法和工具是不可能做到的,因為那些方法和工具處理不了這麼大規模的數據。據估計,只有5%的數字數據是結構化的且能適用於傳統資料庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。通過接受不精確性,我們打開了一個從未涉足的世界的窗戶。
19世紀,科技率先發展起來的法國開發了一套能準確計量時間、空間單位的系統,並逐漸成為其他國家普遍採用的標準,這套系統還為後來國際公認的測量條約奠定了基礎,成為測量時代的巔峰。僅半個世紀之後,20世紀20年代,量子力學的發現永遠粉碎了「測量臻於至善」的幻夢。然而,在物理學這個小圈子以外的一些測量工程師和科學家仍沉湎在完美測量的夢中。隨著理性學科,如數學和統計學逐漸影響到商業領域,商業界更加崇尚這種思想。

大數據的簡單演算法比小數據的複雜演算法更有效

允許不精確

索引是事先就設定好了的,這也就限制了人們的搜索。增加一個新的索引往往既消耗時間,又惹人討論,因為需要改變底層的設計。傳統的關係資料庫是為數據稀缺的時代設計的,所以能夠也需要仔細策劃。在那個時代,人們遇到的問題無比清晰,所以資料庫被設計用來有效地回答這些問題。
谷歌的翻譯之所以更好並不是因為它擁有一個更好的演算法機制。和微軟的班科和布里爾一樣,這是因為谷歌翻譯增加了很多各種各樣的數據。從谷歌的例子來看,它之所以能比IBM的Candide系統多利用成千上萬的數據,是因為它接受了有錯誤的數據。2006年,谷歌發布的上萬億的語料庫,就是來自於互聯網的一些廢棄內容。這就是「訓練集」,可以正確地推算出英語詞彙搭配在一起的可能性。
這些現實條件導致了新的資料庫設計的誕生,它們打破了關於記錄和預設場域的成規。預設場域顯示的是數據的整齊排列。最普遍的資料庫查詢語言是結構化查詢語言,英文縮寫為「SQL」——它的名字就顯示了它的僵化。但是,近年的大轉變就是非關係型資料庫的出現,它不需要預先設定記錄結構,允許處理超大量五花八門的數據。因為包容了結構多樣性,這些資料庫設計就要求更多的處理和存儲資源。但是,一旦考慮到大大降低的存儲和處理成本,這就是一個我們支付得起的公平交易。
事實證明,計算機翻譯最初的成功誤導了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認自己的失敗。機器翻譯不能只是讓電腦熟悉常用規則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和複述,也涉及選詞,而明確地教會電腦這些非常不現實。法語中的「bonjour」就一定是「早上好」嗎?有沒有可能是「今天天氣不錯」、「吃了嗎」或者「喂」?事實上都有可能——這需要視情況而定。
但是,這種數據存儲和分析的方法越來越和現實相衝突。我們現在擁有各種各樣、參差不齊的海量數據。很少有數據完全符合預先設定的數據種類。而且,我們想要數據回答的問題,也只有在我們收集和處理數據的過程中才會知道。
在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會九九藏書造成結果的不準確,與此同時,一些錯誤的數據也會混進資料庫。然而,重點是我們能夠努力避免這些問題。我們從不認為這些問題是無法避免的,而且也正在學會接受它們。這就是由「小數據」到「大數據」的重要轉變之一。
由於象棋的規則家喻戶曉,且走子限制良多,在過去的幾十年裡,象棋演算法的變化很小。計算機象棋程序總是步步為贏是由於對殘局掌握得更好了,而之所以能做到這一點也只是因為往系統里加入了更多的數據。實際上,當棋盤上只剩下六枚棋子或更少的時候,這個殘局得到了全面的分析,並且接下來所有可能的走法(樣本=總體)都被制入了一個龐大的數據表格。這個數據表格如果不壓縮的話,會有一太位元組那麼多。所以,計算機在這些重要的象棋殘局中表現得完美無缺和不可戰勝。
第二個折中出現在數據的質量上。在小數據時代,追求精確度是合理的。因為當時我們收集的數據很少,所以需要越精確越好。如今這依然適用於一些事情。但是對於其他事情,快速獲得一個大概的輪廓和發展脈絡,就要比嚴格的精確性要重要得多。
結果有點令人吃驚。他們發現,隨著數據的增多,4種演算法的表現都大幅提高了。

大數據洞察

大數據要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的「釘是釘,鉚是鉚」。但認為每個問題只有一個答案的想法是站不住腳的,不管我們承不承認。一旦我們承認了這個事實甚至擁護這個事實的話,我們離真相就又近了一步。

然而,在不斷湧現的新情況里,允許不精確的出現已經成為一個新的亮點,而非缺點。因為放鬆了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優於少量數據那麼簡單了,而是大量數據創造了更好的結果。
這些思想上的重大轉變導致了第三個變革,這個變革有望顛覆很多傳統觀念。這些傳統觀念更加基本,往往被認為是社會建立的根基:找到一切事情發生背後的原因。然而其實很多時候,尋找數據間的關聯並利用這種關聯就足夠了。這是我們下一個章節將要討論的。

大數據先鋒

Hadoop與VISA的13分鐘

最能代表這個轉變的,就是Hadoop的流行。Hadoop是與谷歌的MapReduce系統相對應的開源式分佈系統的基礎架構,它非常善於處理超大量的數據。通過把大數據變成小模塊然後分配給其他機器進行分析,它實現了對超大量數據的處理。它預設硬體可能會癱瘓,所以在內部建立了數據的副本,它還假定數據量之大導致數據在處理之前不可能整齊排列。典型的數據分析需要經過「萃取、轉移和下載」這樣一個操作流程,但是Hadoop就不拘泥於這樣的方式。相反,它假定了數據量的巨大使得數據完全無法移動,所以人們必須在本地進行數據分析。

Hadoop的輸出結果沒有關係型資料庫輸出結果那麼精確,它不能用於衛星發射、開具銀行賬戶明細這種精確度要求很高的任務。但是對於不要求極端精確的任務,它就比其他系統運行得快很多,比如說把顧客分群,然後分別進行不同的營銷活動。

信用卡公司VISA使用Hadoop,能夠將處理兩年內730億單交易所需的時間,從一個月縮減至僅僅13分鐘。這樣大規模處理時間上的縮減足以變革商業了。也許Hadoop不適合正規記賬,但是當可以允許少量錯誤的時候它就非常實用。

在華盛頓州布萊恩市的英國石油公司(BP)切里波因特(Cherry Point)煉油廠里,無線感應器遍佈於整個工廠,形成無形的網路,能夠產生大量實時數據。酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發現也無法防止的。
值得注意的是,錯誤性並不是大數據本身固有的。它只是我們用來測量、記錄和交流數據的工具的一個缺陷。如果說哪天技術變得完美無缺了,不精確的問題也就不復存在了。錯誤並不是大數據固有的特性,而是一個亟需我們去處理的現實問題,並且有可能長期存在。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。
20世紀90年代,IBM這個名為Candide的項目花費了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語並出版。由於是官方文件,翻譯的標準就非常高。用那個時候的標準來九-九-藏-書看,數據量非常之龐大。統計機器學習從誕生之日起,就聰明地把翻譯的挑戰變成了一個數學問題,而這似乎很有效!計算機翻譯能力在短時間內就提高了很多。然而,在這次飛躍之後,IBM公司儘管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個項目。
我們甚至發現,不精確已經滲入了資料庫設計這個最不能容忍錯誤的領域。傳統的資料庫引擎要求數據高度精確和準確排列。數據不是單純地被存儲,它往往被劃分為包含「域」的記錄,每個域都包含了特定種類和特定長度的信息。比方說,某個數值域是7個數字長,一個1000萬或者更大的數值就無法被記錄。一個人想在某個記錄手機號碼的域中輸入一串漢字是「不被允許」的。想要被允許也可以,需要改變資料庫結構才可以。現在,我們依然在和電腦以及智能手機上的這些限制進行鬥爭,比如軟體可能拒絕記錄我們輸入的數據。
有時候,當我們掌握了大量新型數據時,精確性就不那麼重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。
20世紀40年代,電腦由真空管製成,要佔據整個房間這麼大的空間。而機器翻譯也只是計算機開發人員的一個想法。在冷戰時期,美國掌握了大量關於蘇聯的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了亟須解決的問題。
確切地說,在許多技術和社會領域,我們更傾向於紛繁混雜。我們來看看內容分類方面的情況。幾個世紀以來,人們一直用分類法和索引法來幫助自己存儲和檢索數據資源。這樣的分級系統通常都不完善——各位讀者沒有忘記圖書館卡片目錄給你們帶來的痛苦回憶吧?在「小數據」範圍內,這些方法就很有效,但一旦把數據規模增加好幾個數量級,這些預設一切都各就各位的系統就會崩潰。
梅里爾說:「有趣的是,對我們而言,基本沒有任何一個人的信息是齊備的,事實上,總有大量的數據缺失。」由ZestFinance創建的用來記錄客戶信息的矩陣是難以想象得稀疏,裏面充滿了數據的空洞,但ZestFinance在這些支離破碎的數據中如魚得水。舉個例子,有10%的客戶屬性信息顯示「已經死亡」,但是依然可以從他們身上收回貸款。梅里爾一臉壞笑地說:「顯然,沒有人會企盼殭屍復活並且主動還貸。但是我們的數據顯示,放貸給殭屍是一項不錯的生意。」
所以,數據多比少好,更多數據比演算法系統更智能還要重要。那麼,混亂呢?在班科和布里爾開始研究數據幾年後,微軟的最大競爭對手,谷歌,也開始更大規模地對這些問題進行探討。谷歌用的是上萬億的語料庫,而不是十億的。谷歌做這類研究不是因為語法檢查,而是為了解決翻譯這個更棘手的難題。
恰恰相反,清楚的分類被更混亂卻更靈活的機制所取代了。這些機制才能適應改變著的世界。當我們上傳照片到Flickr網站的時候,我們會給照片添加標籤。也就是說,我們會使用一組文本標籤來編組和搜索這些資源。人們用自己的方式創造和使用標籤,所以它是沒有標準、沒有預先設定的排列和分類,也沒有我們必須遵守的類別的。任何人都可以輸入新的標籤,標籤內容事實上就成為了網路資源的分類標準。標籤被廣泛地應用於Facebook、博客等社交網路上。因為它們的存在,互聯網上的資源變得更加容易找到,特別是像圖片、視頻和音樂這些無法用關鍵詞搜索的非文本類資源。
20世紀60年代,擁有百萬英語單詞的語料庫——布朗語料庫算得上這個領域的開創者,而如今谷歌的這個語料庫則是一個質的突破,後者使用龐大的資料庫使得自然語言處理這一方向取得了飛躍式的發展。自然語言處理能力是語音識別系統和計算機翻譯的基礎。
後來,班科和布里爾在他們發表的研究論文中寫到,「如此一來,我們得重新衡量一下更多的人力物力是應該消耗在演算法發展上還是在語料庫發展上。」
「從某種意義上,谷歌的語料庫是布朗語料庫的一個退步。因為谷歌語料庫的內容來自於未經過濾的網頁內容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯后的註解。但是,谷歌語料庫是布朗語料庫的好幾百萬倍大,這樣的優勢完全壓倒了缺點。」
執迷於精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。
對「小數據」而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力於優化測量的工具。在採樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。
大的資料庫並九*九*藏*書不是固定在某個地方的,它一般分散在多個硬碟和多台電腦上。為了確保其運行的穩定性和速度,一個記錄可能會分開存儲在兩三個地方。如果一個地方的記錄更新了,其他地方的記錄則只有同步更新才不會產生錯誤。傳統的系統會一直等到所有地方的記錄都更新,然而,當數據廣泛地分佈在多台伺服器上而且伺服器每秒鐘都會接受成千上萬條搜索指令的時候,同步更新就比較不現實了。因此,多樣性是一種解決的方法。

大數據洞察

「大數據」通常用概率說話,而不是板著「確鑿無疑」的面孔。整個社會要習慣這種思維需要很長的時間,其中也會出現一些問題。但現在,有必要指出的是,當我們試圖擴大數據規模的時候,要學會擁抱混亂。

傳統的樣本分析師們很難容忍錯誤數據的存在,因為他們一生都在研究如何防止和避免錯誤的出現。在收集樣本的時候,統計學家會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來採集樣本。但是,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當我們收集所有數據的時候,這就行不通了。不僅是因為耗費巨大,還因為在大規模的基礎上保持數據收集標準的一致性不太現實。就算是不讓人們進行溝通爭吵,也不能解決這個問題。
最初,計算機研發人員打算將語法規則和雙語詞典結合在一起。1954年,IBM以計算機中的250個詞語和六條語法規則為基礎,將60個俄語片語翻譯成了英語,結果振奮人心。IBM 701通過穿孔卡片讀取了「Mi pyeryedayem mislyi posryedstvom ryechyi」這句話,並且將其譯成了「我們通過語言來交流思想」。在慶祝這個成就的發布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂·多斯特爾特(Leon Dostert)表示,他相信「在三五年後,機器翻譯將會變得很成熟」。
第一個折中是,我們默認自己不能使用更多的數據,所以我們就不會去使用更多的數據。但是,數據量的限制正在逐漸消失,而且通過無限接近「樣本=總體」的方式來處理數據,我們會獲得極大的好處。
為了擴大規模,我們接受適量錯誤的存在。正如技術諮詢公司Forrester所認為的,有時得到2加2約等於3.9的結果,也很不錯了。當然,數據不可能完全錯誤,但為了了解大致的發展趨勢,我們願意對精確性做出一些讓步。

大數據先鋒

無所不包的谷歌翻譯系統

2006年,谷歌公司也開始涉足機器翻譯。這被當作實現「收集全世界的數據資源,並讓人人都可享受這些資源」這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的資料庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。

谷歌翻譯系統為了訓練計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網站上尋找對譯文檔,還會去尋找聯合國和歐盟這些國際組織發布的官方文件和報告的譯本。它甚至會吸收速讀項目中的書籍翻譯。谷歌翻譯部的負責人弗朗茲·奧齊(Franz Och)是機器翻譯界的權威,他指出,「谷歌的翻譯系統不會像Candide一樣只是仔細地翻譯300萬句話,它會掌握用不同語言翻譯的質量參差不齊的數十億頁的文檔。」不考慮翻譯質量的話,上萬億的語料庫就相當於950億句英語。

儘管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,谷歌資料庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,並有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減詞彙,所以谷歌的翻譯比其他系統的翻譯靈活很多。

現在,我們能夠容忍模糊和不確定出現在一些過去依賴於清晰和精確的領域,當然過去可能也只是有清晰的假象和不完全的精確。只要我們能夠得到一個事物更完整的概念,我們就能接受模糊和不確定的存在。就像印象派的畫風一樣,近看畫中的每一筆都感覺是混亂的,但是退後一步你就會發現這是一幅偉大的作品,因為你退後一步的時候就能看出畫作的整體思路了。

大數據的力量

當數據只有500萬的時候,有一種簡單的演算法表現得很差,但當數據達10億的時候,它變成了表現最好的,準確率從原來的75%提高到了95%以上。與之相反地,在少量數據情況下運行得最好的演算法,當加入更多的數據時,也會像其他的演算法一樣有所提高,但是卻變成了在大量數據條件下運行得最不好的。它的準確率會從86%提高到94%。

在20世紀80年代後期,IBM的研發人員提出了一個新的想法。與單純教給計算機語言規則和詞彙相比,他們試圖讓計算機自己估算一個詞或一個片語適合於用來翻譯另一種語言中的一個詞和片語的可能性,然後再決定某個詞和片語在另一種語言中的對等詞和片語。

大數據洞察

如今,我們已經生活在信息時代。我們掌握的資料庫越來越全面,它不再只包括我們手頭現象的一點點可憐的數據,而是包括了與這些現象相關的大量甚至全部數據。我們不再需要那麼擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據並從中受益,而不是以高昂的代價消除所有的不確定性。

read.99csw.com
MIT的這個項目彙集了數百萬的產品,它們被數百個零售商賣到了70多個國家。這個項目產生的一個名為PriceStats的商業方案也經常被一些銀行和其他經濟決策人用到。當然,收集到的數據需要仔細的分析,而且這些數據更善於表明價格的發展趨勢而不是精確的價格。但是因為PriceStats收集到了更多的價格信息而且大多是即時的,所以這對決策者來說就非常有益了。
社會將兩個折中的想法不知不覺地滲入了我們的處事方法中,我們甚至不再把這當成一種折中,而是把它當成了事物的自然狀態。
彼得·諾維格(Peter Norvig),谷歌公司人工智慧方面的專家,和他的同事在一篇題為《數據的非理性效果》(The Unreasonable Effectiveness of Data)的文章中寫道,「大數據基礎上的簡單演算法比小數據基礎上的複雜演算法更加有效。」他們就指出,混雜是關鍵。
【大數據先鋒】
微軟與語料庫數據添加
IBM Candidate計算機翻譯項目
無所不包的谷歌翻譯系統
英國石油公司與無線感應器
麻省理工與通貨緊縮預測軟體
Hadoop與VISA的13分鐘
混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。「大數據」專家帕堤爾(D.J.Patil)指出,I.B.M.、T.J.Watson Labs、International Business Machines都可以用來指代IBM,甚至可能有成千上萬種方法稱呼IBM。當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。比如,我們在對Twitter的信息進行情感分析來預測好萊塢票房的時候,就會出現一定的混亂。其實,混亂的起源和類型本來就是一團亂麻。

新的資料庫設計的誕生

紛繁的數據越多越好

假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這裏面包含了更多的數據,而它不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。
互聯網上最火的網址都表明,它們欣賞不精確而不會假裝精確。當一個人在網站上見到一個Facebook的「喜歡」按鈕時,可以看到有多少其他人也在點擊。當數量不多時,會顯示像「63」這種精確的數字。當數量很大時,則只會顯示近似值,比方說「4000」。這並不代表系統不知道正確的數據是多少,只是當數量規模變大的時候,確切的數量已經不那麼重要了。另外,數據更新得非常快,甚至在剛剛顯示出來的時候可能就已經過時了。所以,同樣的原理適用於時間的顯示。谷歌的Gmail郵箱會確切標註在很短時間內收到的信件,比方說「11分鐘之前」。但是,對於已經收到一段時間的信件,則會標註如「兩個小時之前」這種不太確切的時間信息。
當然,有時人們錯標的標籤會導致資源編組的不準確,這會讓習慣了精確性的人們很痛苦。但是,我們用來編組照片集的混亂方法給我們帶來了很多好處。比如,我們擁有了更加豐富的標籤內容,同時能更深更廣地獲得各種照片。我們可以通過合併多個搜索標籤來過濾我們需要尋找的照片,這在以前是無法完成的。我們添加標籤時所固帶的不準確性從某種意義上說明我們能夠接受世界的紛繁複雜。這是對更加精確系統的一種對抗。這些精確的系統試圖讓我們接受一個世界貧乏而規整的慘象——假裝世間萬物都是整齊地排列的。而事實上現實是紛繁複雜的,天地間存在的事物也遠遠多於系統所設想的。
歷史上很多時候,人們會把通過測量世界來征服世界視為最大的成就。事實上,對精確度的高要求始於13世紀中期的歐洲。那時候,天文學家和學者對時間、空間的研究採取了比以往更為精確的量化方式,用歷史學家阿爾弗雷德·克羅斯比(Alfred Crosby)的話來說就是「測量現實」。
但是,「一個唯一的真理」這種想法已經徹底被改變了。現在不但出現了一種新的認識,即「一個唯一的真理」的存在是不可能的,而且追求這個唯一的真理是對注意力的分散。要想獲得大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該是竭力避免的。

大數據洞察

我們怎麼看待使用所有數據和使用部分數據的差別,以及我們怎樣選擇放鬆要求並取代嚴格的精確性,將會對我們與世界的溝通產生深刻的影響。隨著大數據技術成為日常生活中的一部分,我們應該開始從一個比以前更大更全面的角度來理解事物,也就是說應該將「樣本=總體」植入我們的思維中。

我們研究一個現象,是因為我們相信我們能夠理解它。後來,測量方法逐漸被運用到科學觀察、解釋方法中,體現為一種進行量化研究、記錄,並呈現可重複結果的能力。偉大的物理學家開爾文男爵曾說過:「測量就是認知。」這已成為一條至理名言。培根也曾說過:「知識就是力量。」同時,很多數學家以及後來的精算師和會計師都發展了可以準確收集、記錄和管理數據的方法。

混雜性,不是竭力避免,而是標準途徑