0%
第二部分 大數據時代的商業變革 05 價值:「取之不盡,用之不竭」的數據創新

第二部分 大數據時代的商業變革

05 價值:「取之不盡,用之不竭」的數據創新

如今,我們很可能認為谷歌和亞馬遜等網站是大數據的先驅者,但事實上,政府才是大規模信息的原始採集者,並且還在與私營企業競爭他們所控制的大量數據。政府與私營企業數據持有人之間的主要區別就是,政府可以強迫人們為他們提供信息,而不必加以說服或支付報酬。因此,政府將繼續收集和積累大量的數據。
公司賬麵價值和市場價值之間的差額被記為「無形資產」。20世紀80年代中期,無形資產在美國上市公司市值中約佔40%,而在2002年,這一數字已經增長為75%。無形資產早期僅包含品牌、人才和戰略這些應計入正規金融會計制度的非有形資產部分。但漸漸地,公司所持有和使用的數據也漸漸納入了無形資產的範疇。
數據創新再利用的一個典型例子是搜索關鍵詞。消費者和搜索引擎之間的瞬時交互形成了一個網站和廣告的列表,實現了那一刻的特定功能。乍看起來,這些信息在實現了基本用途之後似乎變得一文不值。但是,以往的查詢也可以變得非常有價值。有的公司,如數據代理益百利旗下的網頁流量測量公司Hitwise,讓客戶採集搜索流量來揭示消費者的喜好。通過Hitwise營銷人員可以了解到粉紅色是否會成為今夏的潮流色,或者黑色是否會回歸潮流。谷歌整理了一個版本的搜索詞分析,公開供人們查詢,並與西班牙第二大銀行BBVA合作推出了實時經濟指標以及旅遊部門的業務預報服務,這些指標都是基於搜索數據得到的。英國央行通過搜索查詢房地產的相關信息,更好地了解到了住房價格的升降情況。
想知道數據的重複使用對其終極價值有什麼意義嗎?來看看電動汽車的故事吧。電動汽車能否成功地作為一種交通工具成功普及,其決定因素多如牛毛,但一切都與電池的壽命相關。司機需要能夠快速而便捷地為汽車電池充電,電力公司需要確保提供給這些車輛的電力不會影響電網運轉。幾十年的試驗和錯誤才實現了現有加油站的有效分配,但電動汽車充電站的需求和設置點目前還不得而知。
大數據對於公共部門的適用性同對商業實體是一樣的:大部分的數據價值都是潛在的,需要通過創新性的分析來釋放。但是,由於政府在獲取數據中所處的特殊地位,因此他們在數據使用上往往效率很低。最近有一個想法得到了公認,即提取政府數據價值最好的辦法是允許私營部門和社會大眾訪問。這其實是基於一個原則:國家收集數據時代表的是其公民,因此它也理應提供一個讓公民查看的入口,但少數可能會危害到國家安全或他人隱私權的情況除外。
再來看另一個例子,谷歌在2007—2010年之間計劃在本地搜索列表中加入GOOG—411語音識別服務,但這家搜索巨頭並沒有自己的語音識別技術,因此急需購買許可。於是,谷歌與該領域的領導者Nuance公司達成合作協議,這家公司因為搭上了這樣一個珍貴的客戶而感到十分高興。但Nuance公司在數據方面完全是個十足的笨蛋:合同中沒有規定由誰來保存語音翻譯記錄!於是谷歌自己保存了數據。這些數據在改進技術方面是不可或缺的,谷歌甚至據此從頭創建了一個新的語音識別服務系統。當時Nuance公司只考慮到了軟體許可的業務交易,而忽視了數據的處理。當認識到自己犯下的錯誤后,它立即與移動運營商和手機製造商達成其語音識別服務的使用交易,從而進行數據收集。
一個辦法是從數據持有人在價值提取上所採取的不同策略入手,最常見的一種可能性就是將數據授權給第三方。在大數據時代,數據持有人傾向於從被提取的數據價值中抽取一定比例作為報酬支付,而不是敲定一個固定的數額。這有點類似於出版商從書籍、音樂或電影的獲利中抽取一定比例,作為支付給作者和表演者的特許權使用費;也類似於生物技術行業的知識產權交易,許可人要求從基於他們技術成果的所有後續發明中抽取一定比例的技術使用費。這樣一來,各方都會努力使數據再利用的價值達到最大。然而,由於被許可人可能無法提取數據全部的潛在價值,因此數據持有人可能還會同時向其他方授權使用其數據,兩邊下注以避免損失。因而,「數據濫交」可能會成為一種常態。
儘管如此,數據再利用的重要性還沒有被企業和社會充分認識到。紐約聯合愛迪生公司的高管中很少有誰能夠想到,19世紀的電纜信息和工作人員的維修記錄可以用來預防未來事故的發生。很多互聯網和科技公司甚至直到最近才知道數據再利用具有多大的價值。要解鎖這些數據價值,就必須通過新一代統計人員的不懈努力並藉助新一代的方法和工具。

數據創新6:開放數據

2000年,22歲大學剛畢業的路易斯·馮·安(Luis Von Ahn)提出了解決這個問題的想法:要求註冊人提供真實身份證明。他試圖找出一些人類容易辨別但對機器來說卻很難的東西,最後他想到了一個辦法,即在註冊過程中顯示一些波浪狀、辨識度低的字母。人能夠在幾秒鐘內識別並輸入正確的文本信息,但電腦卻可能會被難倒。雅虎採用了這個方法以後,一夜之間就減輕了垃圾郵件帶來的苦惱。馮·安將他的這一創作稱為驗證碼(全稱為「全自動區分計算機和人類的圖靈測試」)。五年後,每天約有2億的驗證碼被用戶輸入。
這個結果極具指導意義,儘管通過視覺展示使得數據更加親和且非常簡單,但採用位置信息並將其置於地圖上畢竟不是一個創造性的飛躍。隨著大數據的出現,我們可以走得更遠,丹麥的癌症研究就為我們提示了更多的可能性。
隨著一點點的調查,他終於弄清楚了,他們把一個演算法里的兩個代數方程弄反了。所以如果現在還有其他學生犯同樣錯誤的話,系統不會簡單地告訴他們做錯了,而是會提示他們去檢查演算法。這個系統也應用了大數據,通過分析學生看過的每個論壇帖子以及他們是否正確完成課外作業,來預測看過某個帖子之後的學生正確作答的概率,並由此來確定哪些論壇帖子最適合學生閱讀。這些都是過去很難得知的,現在卻永遠地改變了教學方式。

數據創新5:數據廢氣

數據創新4:數據的折舊值

大數據先鋒

谷歌,從大的「噪音」數據中受益

例如,谷歌敏銳地注意到,人們經常搜索某個詞及其相關詞,點擊進入后卻未能找到想要的信息,於是又返回到搜索頁面繼續搜索。它知道人們點擊的是第1頁的第8個鏈接還是第8頁的第1個鏈接,或者是乾脆放棄了所有搜索點擊。谷歌不是第一個洞察到這一點的公司,但它利用這一點並取得了非凡的成果。

這些信息是非常有價值的。如果許多用戶都點擊搜索結果頁底部的鏈接,就表明這個結果更加具有相關性,谷歌的排名演算法就會自動地在隨後的搜索中將它提到頁面中比較靠前的位置(廣告也是如此)。一位谷歌的員工說:「我們喜歡從大的『噪音』數據集中吸取教訓。」

大數據先鋒

亞馬遜,讓數據的價值再大一點

未能理解數據再利用重要性的公司以慘痛的代價換來了經驗教訓。例如,亞馬遜早期與AOL達成了一項協議,為AOL電子商務網站提供後台技術服務。在大多數人眼裡,這隻是一個普通的外包協議,而亞馬遜真正的用意在於掌握用戶的數據:他們在看什麼、買什麼。「這些數據可以幫助亞馬遜提高它的推薦引擎性能。」亞馬遜前首席科學家韋思岸(Andreas Weigend)一語道破。可憐的AOL從來沒有意識到這一點,只看到了銷售這個基本用途所帶來的利益;而聰明的亞馬遜卻知道如何從二次利用中獲利。

九九藏書

大數據先鋒

谷歌街景與GPS採集

在收集數據時強調擴展性方面,谷歌毫無疑問是做得最好的公司之一。其備受爭議的街景汽車不僅拍攝了房屋和道路的照片,還同時採集GPS數據,檢查地圖的信息,甚至還加入了無線網路名稱(以及通過開放無線網路的內容,儘管這可能是非法的)。一輛谷歌街景汽車每時每刻都能積累大量的離散數據流。這些數據之所以具有可擴展性,是因為谷歌不僅將其用於基本用途,而且進行了大量的二次使用。例如,GPS數據不僅優化了其地圖服務,而且對谷歌自動駕駛汽車的運作功不可沒。

大數據的力量

與僱用人所需要花費的成本相比較,它釋放出的價值是非常巨大的。每天完成的ReCaptcha超過2億,按平均每10秒輸入一次的話,一天加起來一共是50萬個小時,而2012年美國的最低工資是每小時7.25美元。從市場的角度來看,解疑計算機不能識別的單詞每天需要花費約350萬美元,或者說每年需要花費10億多美元。馮·安設計的這個系統做到了這一點,並且,沒有花一分錢。

20世紀90年代後期,網路逐漸變得擁堵起來。有人開發了一款名為「Spambots」的垃圾郵件程序軟體,向成千上萬名用戶批量發送廣告信息,淹沒收件人的電子郵箱。他們會在各種網站上註冊,然後在評論部分留下成百上千條廣告。網路因此成了一個不守規矩、不受歡迎、不夠友善的地方。而且,這種軟體似乎打破了網路原有的開放性和易用性模式,要知道,正是這種模式向人們提供了各種便利,比如免費電子郵件。當特瑪捷這一類公司根據「先到先服務」的原則提供演唱會門票網上訂票服務時,作弊軟體會偷偷摸摸跑到真正排隊的人之前,將門票全部買下。
在Farecast或谷歌這樣的信息公司眼裡,數據開始被視為一個新的生產要素,原始材料在數字流水線的一端輸入,而處理后的信息則從另一端輸出。
同時,各種Web開發人員和富有遠見的思想家組成了數據團隊來最大化開放數據價值,如美國的陽光基金會和英國的開放知識基金會。

大數據洞察

在數字化時代,數據支持交易的作用被掩蓋,數據只是被交易的對象。而在大數據時代,事情再次發生變化。數據的價值從它最基本的用途轉變為未來的潛在用途。這一轉變意義重大,它影響了企業評估其擁有的數據及訪問者的方式,促使甚至是迫使公司改變他們的商業模式,同時也改變了組織看待和使用數據的方式。

大數據先鋒

巴諾與NOOK快照

電子書閱讀器捕捉了大量關於文學喜好和閱讀人群的數據:讀者閱讀一頁或一節需要多長時間,讀者是略讀還是直接放棄閱讀,讀者是否畫線強調或者在空白處做了筆記,這些他們都會記錄下來。這就將閱讀這種長期被視為個人行為的動作轉換成了一種共同經驗。一旦聚集起來,數據廢氣可以用量化的方式向出版商和作者展示一些他們可能永遠都不會知道的信息,如讀者的好惡和閱讀模式。這是十分具有商業價值的。電子圖書出版公司可以將這些信息賣給出版商,從而幫助改進書籍的內容和結構。例如,巴諾通過分析Nook電子閱讀器的數據了解到,人們往往會棄讀長篇幅的非小說類書籍。公司從中受到啟發,從而推出「Nook快照」,加入了一系列健康和時事等專題的短篇作品。

那麼,如何給數據估值呢?誠然,計算價值不再是將其基本用途簡單地加總。但是如果數據的大部分價值都是潛在的,需要從未知的二次利用提取,那麼人們目前尚不清楚應該如何估算它。這個難度類似於在20世紀70年代布萊克-舒爾斯期權定價理論出現前金融衍生品的定價。它也類似於為專利估值,因為隨著各種拍賣、交流、私人銷售、許可和大量訴訟的出現,一個知識市場正在逐漸興起。如果不出意外,給數據的潛在價值貼上價格標籤會給金融部門帶來無限商機。

數據創新3:可擴展數據

這一切給馮·安這位家裡經營糖果廠的瓜地馬拉人帶來了相當高的知名度,使他能夠在取得博士學位後進入卡內基梅隆大學工作,教授計算機科學;也使他在27歲時獲得了50萬美元的麥克阿瑟基金會「天才獎」。但是,當他意識到每天有這麼多人要浪費10秒鐘的時間輸入這堆惱人的字母,而隨後大量的信息被隨意地丟棄時,他並沒有感到自己很聰明。

大數據洞察

數據的價值並不僅限於特定的用途,它可以為了同一目的而被多次使用,也可以用於其他目的。要了解大數據時代究竟有多少信息對我們有價值,後面這一點尤其重要。

隨著大數據的出現,數據的總和比部分更有價值。當我們將多個數據集的總和重組在一起時,重組總和本身的價值也比單個總和更大。如今,互聯網用戶都熟悉基本的混搭式應用,即將兩個或多個數據源以一種新穎的方法結合起來。例如,房地產網站Zillow.com將房地產信息和價格添加在美國的社區地圖上,同時還聚合了大量的信息,如社區近期的交易和物業規格,以此來預測區域內具體每套住宅的價值。
同時,投資者也開始注意到數據的潛在價值。擁有數據或能夠輕鬆收集數據的公司,其股價會上漲;而其他不太幸運的公司,就只能眼看著自己的市值縮水。因為這種狀況,數據並不要求其價值正式顯示在資產負債表中。儘管做起來有困難,市場和投資者還是會給這些無形資產估價,所以Facebook的股價在最初的幾個月中一直搖擺不定。但隨著會計窘境和責任問題得到緩解,幾乎可以肯定數據的價值將顯示在企業的資產負債表上,成為一個新的資產類別。
總之,儘管數據長期以來一直是有價值的,但通常只是被視為附屬於企業經營核心業務的一部分,或者被歸入知識產權或個人信息中相對狹窄的類別。但在大數據時代,所有數據都是有價值的。

大數據先鋒

微軟與谷歌的拼寫檢查

在過去的20多年中,微軟為其Word軟體開發出了一個強大的拼寫檢查程序,通過與頻繁更新的字典正確拼寫相比較來對用戶鍵入的字元流進行判斷。字典囊括了所有已知詞彙,系統將拼寫相似但字典中沒有的詞彙判斷為拼寫錯誤,並對其進行糾正。由於需要不斷編譯和更新字典,微軟Word的拼寫檢查僅適用於最常用的語言,且每年需要花費數百萬美元的創建和維護費用。

現在再來看看谷歌是怎麼做的吧。可以說,谷歌擁有世界上最完整的拼寫檢查器,基本上涵蓋了世界上的每一種語言。這個系統一直在不斷地完善和增加新的詞彙,這是人們每天使用搜索引擎的附加結果。你輸錯了iPad嗎?不要緊,它在那兒呢;Obamacare是什麼?哦,明白了。

而且,谷歌幾乎是「免費」地獲得了這種拼寫檢查,它依據的是其每天處理的30億查詢中輸入搜索框中的錯誤拼寫。一個巧妙的反饋循環可以將用戶實際想輸入的內容告知系統。當搜索結果頁面的頂部顯示「你要找的是不是:流行病學」時,用戶可以通過點擊正確的術語明確地「告訴」谷歌自己需要重新查詢的內容。或者,直接在用戶訪問的頁面上顯示正確拼寫的結果,因為它很可能與正確的拼寫高度相關。(這實際上比看上去更有意義,因為隨著谷歌拼寫檢查系統的不斷完善,人們即使沒有完全精確地輸入查詢內容也能夠獲得正確的查詢結果。)

谷歌的拼寫檢查系統顯示,那些「不合標準」、「不正確」或「有缺陷」的數據也是非常有用的。有趣的是,谷歌並不是第一個有這種拼寫想法的公司。2000年左右,雅虎也看到了從用戶輸錯的查詢中創建拼寫檢查系統的可能性,但只是停留在了想法階段,並未付諸實踐。舊的搜索查詢數據就這樣被當成了垃圾對待。同樣,Infoseek和Alta Vista這兩個早期流行的搜索引擎,雖然在那個年代都擁有世界上最全面的錯別字資料庫,但他們未懂得欣賞其中的價值。在用戶不可見的搜索過程中,他們的系統將錯別字作為「相關詞」進行了處理,但是它的依據是明確告訴系統對與錯的字典,而不是鮮活的、有生命的用戶交互的總和。

只有谷歌認識到了用戶交互的碎屑實際上是金粉,收集在一起就能鍛造成一塊閃亮的金元寶。谷歌的一名頂級工程師估計,他們的拼寫檢查器性能比微軟至少高出一個數量級(雖然他在採訪時承認這並沒有進行過可靠計算)。他還嘲笑了「免費」開發的想法——「雖然原材料拼寫錯誤都是免費獲得的,但谷歌在系統開發上的花費可能比微軟要多得多。」他大笑著說。

https://read.99csw•com
Udacity、Coursera和EDX等在線教育課程通過跟蹤學生的Web交互來尋找最佳的教學方法。班級人數成千上萬,產生的數據也十分驚人。教授們現在可以看到,如果大部分學生需要再看一遍課程內容,就可能表明某些地方他們還不太清楚。在斯坦福大學教授安德魯·恩格(Andrew Ng)講授的Coursera機器學習課堂上,他注意到約有2000名學生課外作業的答案是錯誤的,但錯誤答案居然是相同的。顯然,他們都犯了相同的錯誤,那麼是什麼呢?
不同於物質性的東西,數據的價值不會隨著它的使用而減少,而是可以不斷地被處理。這就是經濟學家所謂的「非競爭性」的好處:個人的使用不會妨礙其他人的使用,而且信息不會像其他物質產品一樣隨著使用而有所耗損。因此,亞馬遜在向其用戶,不論是生成這些數據的客戶或是其他客戶做出建議時,都可以不斷地使用過去的交易數據。
和很多新科技股的第一個上市交易日一樣,公司股價立即上漲了11%,翻倍增長甚至已經近在眼前。然而就在這一天,怪事發生了。Facebook的股價開始下跌,期間納斯達克的電腦因出現技術故障曾暫停交易,但仍然於事無補,情況甚至更加惡化。感到異常的股票承銷商在摩根士丹利的帶領下,不得不支撐股價,最終以略高於發行價收盤。
那麼,如何解釋Facebook根據會計準則計算出的價值(約63億美元)和最初的市場估值(1040億美元)之間會產生如此巨大的差距呢?目前還沒有很好的方法能解釋這一點。然而人們普遍開始認為,通過查看公司「賬麵價值」(大部分是有形資產的價值)來確定企業價值的方法,已經不能充分反映公司的真正價值。事實上,賬麵價值與「市場價值」(即公司被買斷時在股票市場上所獲的價值)之間的差距在這幾十年中一直在不斷地擴大。美國參議院甚至在2000年舉行了關於將現行財務報告模式現代化的聽證會。現行的財務報告模式始於20世紀30年代,當時信息類的企業幾乎不存在。現行財務報表模式與現狀的差異不僅會影響公司的資產負債表,如果不能正確評估企業的價值,還可能會給企業帶來經營風險和市場波動。
我們所處的時代之所以與眾不同,是因為數據的收集不再存在固有的局限性。技術已經發展到一定程度,大量信息可以被廉價地捕捉和記錄。數據經常會得到被動地收集,人們無須投入太多精力甚至不需要認識這些數據。而且,由於存儲成本的大幅下降,保存數據比丟棄數據更加容易。這使得以較低成本獲得更多數據的可能性比以往任何時候都大。
這兩家公司的不同做法很能說明問題。微軟只看到了拼寫檢查作為文字處理這一個目的的價值,而谷歌卻理解了其更深層次的價值。不僅利用錯別字開發了世界上最好、最新式的拼寫檢查器來提高搜索質量,而且將其應用於許多其他服務中,如搜索的「自動完成」功能、Gmail、谷歌文檔甚至翻譯系統。
於是,他開始尋找能使人的計算能力得到更有效利用的方法。他想到了一個繼任者,恰如其分地將其命名為ReCaptcha。和原有隨機字母輸入不同,人們需要從計算機光學字元識別程序無法識別的文本掃描項目中讀出兩個單詞並輸入。其中一個單詞其他用戶也識別過,從而可以從該用戶的輸入中判斷註冊者是人;另一個單詞則是有待辨識和解疑的新詞。為了保證準確度,系統會將同一個模糊單詞發給五個不同的人,直到他們都輸入正確后才確定這個單詞是對的。在這裏,數據的主要用途是證明用戶是人,但它也有第二個目的:破譯數字化文本中不清楚的單詞。ReCaptcha的作用得到了認可,2009年穀歌收購了馮·安的公司,並將這一技術用於圖書掃描項目。
用物理學家解釋能量的方法或許可以幫助我們理解數據。他們認為物體擁有「儲存著的」或「潛在的」能量,只是處於休眠狀態,比如壓縮了的彈簧或放置在小山頂的小球。這些物體中的能量是隱藏著的、潛在的,直到它們被釋放出來。當彈簧被釋放或者小球被輕碰而滾下山坡時,這些物體的能量就變成了「動能」,因為它們在移動並對其他物體施力。同理,在基本用途完成後,數據的價值仍然存在,只是處於休眠狀態,就像彈簧或小球一樣,直到它被二次利用並重新釋放它的能量。在大數據時代,我們終於有了這種思維、創造力和工具,來釋放數據的隱藏價值。
歐盟宣布開放數據的舉措很快也會遍及整個歐洲。其他國家,如澳大利亞、巴西、智利等也相繼出台並實施了開放數據策略。同時,世界各地越來越多的城市和地區也已經加入開放數據的熱潮,一些國際組織也是如此,世界銀行就公開了數百個之前被限制的關於經濟和社會指標方面的數據集。

大數據的力量

在過去的50年中,數字存儲成本大約每兩年就削減一半,而存儲密度則增加了5000萬倍。

數據創新1:數據的再利用

無論是向公眾開放還是將其鎖在公司的保險庫中,數據的價值都難以衡量。來看看2012年5月18日星期五發生的事吧。這一天,28歲的Facebook創始人馬克·扎克伯格(Mark Zuckerberg)在位於美國加利福尼亞州門洛帕克市的公司總部,象徵性地敲響了納斯達克的開盤鍾。這家宣稱全球約每十人中就有一人是其用戶的全球最大社交網路公司,開啟了其作為上市公司的征程。
一些試圖給數據定價的市場如雨後春筍般出現。2008年在冰島成立的DataMarket向人們提供其他機構(如聯合國、世界銀行和歐盟統計局等)的免費數據集,靠倒賣商業供應商(如市場研究公司)的數據來獲利。另一家新創辦的公司InfoChimps,其總部設在得克薩斯州奧斯汀市,希望成為一個信息中間人,供第三方以免費或付費的方式共享他們的數據。就像易趣給人們提供了一個出售家中擱置不用的物品的平台一樣,這些科技創業公司想為任何手中擁有數據的人提供一個出售數據的平台。例如,Import.io鼓勵公司授權別人使用自己手中的數據,不然別人也可以從網上免費收集到這些數據。谷歌的前員工吉爾·埃爾巴茲(Gil Elbaz)創辦的Factual收集數據,然後製成資料庫供需要者使用。
很多企業都開始設計他們的系統,以這種方式收集和使用信息。在Facebook的早期,數據科學家們研究了數據廢氣的豐富信息,發現人們會採取某種行動(如回帖、點擊圖標等)的最重要的預測指標就是他們看到了周圍的朋友也在這麼做。緊接著,Facebook重新設計了它的系統,使每個用戶的活動變得可見並廣播出去,這為網站的良性循環做https://read.99csw.com出了新的貢獻。逐漸地,這個想法從互聯網行業傳播至可以收集用戶反饋的任何公司。
促成數據再利用的方法之一是從一開始就設計好它的可擴展性。雖然這不總是可能的,因為人們可能在數據收集后很長時間才意識到這一點,但的確有一些方法可以鼓勵相同數據集的多種用途。例如,有些零售商在店內安裝了監控攝像頭,這樣不僅能認出商店扒手,還能跟蹤在商店裡購物的客戶流和他們停留的位置。零售商利用後面的信息可以設計店面的最佳布局並判斷營銷活動的有效性。在此之前,監控攝像機僅用於安全保衛,是一項純粹的成本支出,而現在卻被視為一項可以增加收入的投資。

ReCaptcha與數據再利用

數據創新2:重組數據

數據再利用的方式可以很巧妙、很隱蔽。網路公司可以捕捉到用戶在其網站上做的所有事情,然後將每個離散交互當作一個「信號」,作為網站個性化、提高服務或創建全新數字化產品的反饋。兩個關於拼寫檢查的故事給我們提供了一個生動的解釋。

大數據洞察

潛在價值的概念表明,組織機構應收集儘可能多的使用數據並保存儘可能長的時間。同時也應當與第三方分享數據,前提是要保留所謂的「延展性」權利(專利許可術語)。這樣一來,由數據再利用而產生的任何商業價值,原始數據擁有者都能從中分到一杯羹。數據收集者和擁有者無法想象數據再利用的所有可能方式,這一點幾乎是不言自明的。

有趣的是,與其說這是一個基礎設施問題,不如說這是一個信息問題,因為大數據是解決方案的重要組成部分。

大數據先鋒

移動運營商與數據再利用

如果得到使用正確,即使是最平凡的信息也可以具有特殊的價值。看看移動運營商吧:他們記錄了人們的手機在何時何地連接基站的信息,包括信號的強度。運營商們長期使用這些數據來微調其網路的性能,決定哪裡需要添加或者升級基礎設施。但這些數據還有很多其他潛在的用途,比如手機製造商可以用它來了解影響信號強度的因素,以改善手機的接收質量。一直以來,處於隱私保護相關法律的限制,移動運營商們並沒有用這些數據來謀取利益。但如今,伴隨著經濟頹勢,它們開始逐漸改變立場,認為數據也可以作為其利潤的潛在來源。2012年,西班牙電話公司(Telefónica of Spain),一家國際電訊公司,甚至創立了獨立公司Telefonica Digital Insights來向零售商和其他買家出售其收集到的匿名用戶位置信息。

【大數據先鋒】
IBM,電動汽車動力與電力供應系統優化預測
Hitwise,通過流量判斷消費者喜好
亞馬遜,讓數據的價值再大一點
移動運營商與數據再利用
谷歌街景與GPS採集
微軟與谷歌的拼寫檢查
谷歌,從大的「噪音」數據中受益
巴諾與NOOK快照
在線教育課程,找到最合適閱讀的論壇帖子
Facebook,從66億到1040億
DataMarket與InfoChimps,提供免費與付費數據
ReCaptcha的故事強調了數據再利用的重要性。隨著大數據的出現,數據的價值正在發生變化。
即使是在嚴謹的英國,現在也出現了實質性的轉變。英國政府已經頒布相關規定鼓勵信息公開,並支持創建由萬維網的發明者蒂姆·伯納斯(Tim Berners-Lee)參与指導的開放式數據中心,這一舉措促進了開放數據的新用途並將數據從國家手中解放出來。

大數據洞察

數據價值的關鍵是看似無限的再利用,即它的潛在價值。收集信息固然至關重要,但還遠遠不夠,因為大部分的數據價值在於它的使用,而不是佔有本身。

收集多個數據流或每個數據流中更多數據點的額外成本往往較低,因此,收集儘可能多的數據並在一開始的時候就考慮到各種潛在的二次用途並使其具有擴展性是非常有意義的。這增加了數據的潛在價值。問題的關鍵是尋找「一份錢兩份貨」,即如果以某種方式收集的單一數據集有多種不同的用途,它就具有雙重功能。
當沃爾瑪檢查以往的銷售數據並發現颶風和蛋撻銷售之間存在有利可圖的關係時,這種潛力的一部分已經得到實現。這意味著數據的全部價值遠遠大於其最初的使用價值,也意味著即使首次或之後的每次使用都只帶來了少量的價值,但只要數據被多次使用過,企業仍然可以對數據加以有效利用。
然而,並非所有的數據都會貶值。有些公司提倡儘可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。這就解釋了為什麼一直以來,谷歌都拒絕將互聯網協議地址從舊的搜索查詢中完全刪除(它只是在18個月後刪除了最後四位數以隱匿搜索查詢)。谷歌希望得到每年的同比數據,如假日購物搜索等。此外,通過了解搜索者的位置,可以幫助改善搜索結果的相關性。例如,很多紐約人都會搜索「火雞」,但經常會搜索到與「火雞」無關的關於「土耳其」的網頁(英文中「火雞」與「土耳其」同為turkey)。通過演算法可以將他們想要查看的頁面放在排名靠前的位置,來方便其他紐約人查找。即使數據用於基本用途的價值會減少,但潛在價值卻依然強大。
這令人匪夷所思。加特納市場研究公司(Gartner)的副總裁道格·萊尼(Doug Laney)研究了Facebook在IPO前一段時間內的數據,估算出Facebook在2009年至2011年間收集了2.1萬億條「獲利信息」,比如用戶的「喜好」、發布的信息和評論等。與其IPO估值相比,這意味著每條信息(將其視為一個離散數據點)都有約4美分的價值。也就是說,每一個Facebook用戶的價值約為100美元,因為他們是Facebook所收集信息的提供者。
於是,亞馬遜決定只使用仍有生產價值的數據,這就需要不斷地更新資料庫並淘汰無用信息。這時面臨的挑戰就是如何得知哪些數據不再有價值。僅僅依據時間來判斷顯然不夠,因此,亞馬遜等公司建立了複雜的模型來幫助自己分離有用和無用的數據。例如,如果客戶瀏覽或購買了一本基於以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊數據的有用性,並使模型的「折舊率」更具體。
微軟也帶著它的Windows Azure DataMarket登上了歷史舞台。它的目標是專註高質量的數據和監督所提供的產品,其方式和蘋果公司監督其應用程序商店中的產品類似。微軟假設,一位銷售主管在準備Excel表格時可能還需要做一份公司內部數據和來自經濟顧問的GDP增長預測的交叉表,那麼她只要點擊想要購買的數據,後者read.99csw•com將瞬間出現在她的電腦屏幕上。
大部分數據的直接價值對收集者而言是顯而易見的。事實上,數據通常都是為了某個特定的目的而被收集——商店為了會計核算而收集銷售數據,工廠為了確保產品符合質量標準而監控輸出,網站記錄每一個用戶點擊(即使是滑鼠游標的移動)來分析和優化其呈現給訪客的內容。數據的基本用途為信息的收集和處理提供了依據。亞馬遜同時記錄下了客戶購買的書籍和他們瀏覽過的頁面,便可以利用這些數據來為客戶提供個性化的建議。同樣,Facebook跟蹤用戶的「狀態更新」和「喜好」,以確定最佳的廣告位從而賺取收入。
信息對於市場交易而言是必不可少的。數據使價格發現成為可能,比如眾所周知的一點,它是決定生產數量的信號。一些特殊類型的信息也早已在市場上交易,如書籍、文章、音樂、電影以及金融信息(如股票價格)等。這些在過去的幾十年中已經通過個人數據加入資料庫。美國的專業數據經紀人,如安客誠(Acxiom)、益百利和艾可飛(Equifax)等,專門負責從數億名消費者中收集個人信息加入綜合檔案。隨著Facebook、Twitter、LinkedIn、Foursquare等社交平台的出現,我們的人脈關係、想法、喜好和日常生活模式也逐漸被加入到巨大的個人信息庫中。

大數據洞察

最終,數據的價值是其所有可能用途的總和。這些似乎無限的潛在用途就像是選擇,這裏不是指金融工具意義上的選擇,而是實際意義上的選擇。這些選擇的總和就是數據的價值,即數據的「潛在價值」。

由於在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數據,但是他們並不急需使用也並不擅長再次利用這些數據。例如,行動電話運營商收集用戶的位置信息來傳輸電話信號。對於這些公司來說,數據只具有狹窄的技術用途。但是當它被一些發布個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。有時候,數據的價值並非來自於單個的數據值,而是從數據匯總中體現出來的。因此,AirSage和Sense Networks這些企業會出售諸如人們周五晚上聚集在哪裡或者汽車在哪個地段行駛多慢等信息,這種信息集合可以用來確定房地產價值或廣告牌的價格。
這種想法讓「開放政府數據」的倡議響徹全球。開放數據的倡導者主張,政府只是他們所收集信息的託管人,私營部門和社會對數據的利用會比政府更具有創新性。他們呼籲建立專門的官方機構來公布民用和商業數據;而且數據必須以標準的可機讀形式展現,以方便人們處理。否則,信息的公開只會是徒有虛名。
隨著數據存儲成本的大幅下降,企業擁有了更強的經濟動機來保存數據,並再次用於相同或類似的用途。但是,其有效性是有限的。例如,像奈飛和亞馬遜這類公司可以利用客戶購買的產品、瀏覽的頁面和評論來推薦新的產品,他們可能會年復一年、一遍又一遍地使用這些數據。考慮到這一點,人們可能會認為只要公司不被隱私保護法等法律法規所限制,就應該永遠保存這些數字記錄,或者至少在經濟條件允許的情況下保存這些記錄。然而,事實並非如此簡單。
最終,這意味著目前還找不到一個有效的方法來計算數據的價值。Facebook開盤當天,其正規金融資產與其未記錄的無形資產之間相差了近1000億美元,差距幾乎是20倍!太可笑了。但是,隨著企業找到在資產負債表上記錄數據資產價值的方法,這樣的差距有一天也必將消除。
2008年1月21日,奧巴馬總統在就職的第一天發表了一份總統備忘錄,命令美國聯邦機構的負責人公布儘可能多的數據,這使開放政府數據的想法取得了極大的進展。「面對懷疑,公開優先。」他這樣指示道。這真是一個了不起的聲明,特別是與那些作出相反指令的前任們相比。奧巴馬的指令促成了data.gov網站的建立,這是美國聯邦政府的公開信息資料庫。網站從2009年的47個數據集迅速發展起來,到2012年7月三周年時,數據集已達45萬個左右,涵蓋了172個機構。

給數據估值

到目前為止,沒有人知道估值模型將發揮出怎樣的作用。但可以肯定的是,經濟正漸漸開始圍繞數據形成,很多新玩家可以從中受益,而一些資深玩家則可能會找到令人驚訝的新生機。用矽谷技術專家和科技出版社員工蒂姆·奧萊利(Tim O'Reilly)的話來說就是,「數據是一個平台」,因為數據是新產品和新商業模式的基石。
這裏所說的「所有數據」包含了那些最原始的、看似最平凡的信息單位。想一想工廠機器上熱感測器的讀數,GPS坐標上的實時數據流,某一輛或者60000輛車的加速度感測器讀數和燃料水平。再想想數十億舊的搜索查詢,或者過去數年美國每趟商務航班上每個座位的價格。

數據的「潛在價值」

數據廢氣可以成為公司的巨大競爭優勢,也可能成為對手的強大進入壁壘。試想,如果一家新上市的公司設計了一個比當今行業領先者(如亞馬遜、谷歌或Facebook等)更優秀的電子商務網站、社交網站或搜索引擎,它也難以同對手競爭,這不僅是因為其經濟規模、網路效應或品牌價值不夠好,而是因為這些公司收集了來自客戶交互的數據廢氣並納入到他們的服務中。一個新的在線教育網站有能力與一個已經具備龐大資料庫並且由此知道什麼最好的對手相抗衡嗎?
下一章,我們將考察數據的實際運用和日益崛起的大數據行業。
數據廢氣是許多電腦化服務背後的機制,如語音識別、垃圾郵件過濾、翻譯等。當用戶指出語音識別程序誤解了他們的意思時,他們實際上有效地「訓練」了這個系統,讓它變得更好。

大數據先鋒

IBM,電動汽車動力與電力供應系統優化預測

在2012年進行的一項試驗中,IBM曾與加利福尼亞州的太平洋天然氣與電氣公司以及汽車製造商本田合作,收集了大量信息來回答關於電動汽車應在何時何地獲取動力及其對電力供應的影響等基本問題。

基於大量的信息輸入,如汽車的電池電量、汽車的位置、一天中的時間以及附近充電站的可用插槽等,IBM開發了一套複雜的預測模型。它將這些數據與電網的電流消耗以及歷史功率使用模式相結合。通過分析來自多個數據源的巨大實時數據流和歷史數據,能夠確定司機為汽車電池充電的最佳時間和地點,並揭示充電站的最佳設置點。最後,系統需要考慮附近充電站的價格差異,即使是天氣預報,也要考慮到。例如,如果是晴天,附近的太陽能供電站會充滿電,但如果預報未來一周都會下雨,那麼太陽能電池板將會被閑置。

系統採用了為某個特定目的而生成的數據,並將其重新用於另一個目的,換言之,數據從其基本用途移動到了二級用途。這使得它隨著時間的推移變得更有價值。汽車的電池電量指示器告訴司機應當何時充電,電網的使用數據可以通過設備收集到,從而管理電網的穩定性。這些都是一些基本的用途。這兩組數據都可以找到二級用途,即新的價值。它們可以應用於另一個完全不同的目的:確定何時何地充電以及電子汽車服務站的設置點。在此之上,新的輔助信息也將納入其中,如汽車的位置和電網的歷史使用情況。而且,這些數據不只會使用一次,而是隨著電子汽車的能耗和電網壓力狀況的不斷更新,一次又一次地為IBM所用。

人們正在朝著這個方向前進。在美國最大的無線運營商之一工作的一位高級管理人員透露說,數據持有人在認識到數據的巨大價值之後會研究是否在正式的會計條款中將其作為企業的資產。但是,一旦公司的律師得知此事,便會加以阻止。因為把數據計入賬麵價值可能會使該公司承擔法律責任,律師們並不認為這是一個好主意。
有時,處於休眠狀態的數據的價值只能通過與另一個截然九-九-藏-書不同的數據集結合才能釋放出來。用新的方式混合這些數據,我們可以做出很有創意的東西來。一個成功的例子是2011年發表的關於手機是否增加致癌可能性的一項有趣的研究。全球約有60億部手機,幾乎人手一部,因而這個問題是至關重要的。人們做了大量的研究來尋找其中的關聯,但都受困於各種障礙:樣本量太小、研究時間太短或者是被試自己報告的數據中充滿錯誤。然而,丹麥癌症協會的研究團隊基於以往收集的數據想出了一個有趣的方法。
一個用來描述人們在網上留下的數字軌跡的藝術詞彙出現了,這就是「數據廢氣」。它是用戶在線交互的副產品,包括瀏覽了哪些頁面、停留了多久、滑鼠游標停留的位置、輸入了什麼信息等。許多公司因此對系統進行了設計,使自己能夠得到數據廢氣並循環利用,以改善現有的服務或開發新服務。毋庸置疑,谷歌是這方面的領導者,它將不斷地「從數據中學習」這個原則應用到許多服務中。用戶執行的每一個動作都被認為是一個「信號」,谷歌對其進行分析並反饋給系統。
數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。明白了這一點,那些創新型企業就能夠提取其潛在價值並獲得潛在的巨大收益。總之,判斷數據的價值需要考慮到未來它可能被使用的各種方式,而非僅僅考慮其目前的用途。在我們強調過多次的例子中這一點體現得非常明顯:Farecast利用機票銷售數據來預測未來的機票價格;谷歌重複使用搜索關鍵詞來監測流感的傳播;麥格雷戈博士用嬰兒的生命體征來預測傳染病的發生;莫里重新利用老船長的日誌而發現了洋流。

大數據先鋒

FlyOnTime的航班時間預測

開放數據早期的一個例子,來自美國一個叫FlyOnTime.us的網站。人們可以交互地(從許多其他相互關係中)判斷惡劣天氣使某一特定機場的航班延遲的可能性有多大。該網站結合了航班信息和互聯網免費提供的官方天氣預報。它是由開放數據的倡導者開發的,由此來說明美國聯邦政府所積累信息的實際使用價值。不僅數據是免費提供的,而且軟體代碼也是開放源代碼,可供人們學習和再次利用。

FlyOnTime.us讓數據說話,並且經常語出驚人。人們可以看到,從波士頓到紐約拉瓜迪亞機場的航班因大霧延遲的時間是因雪延遲的兩倍。當人們在候機室逗留時,大部分人可能都料想不到這一點,因為他們通常認為雪才是使航班延遲更重要的原因。正是大數據給了人們這種洞察力,只要將交通運輸局的歷史航班延誤數據和美國聯邦航空管理局的機場信息,以及美國國家海洋和大氣管理局的以往天氣報告和國家氣象服務的實時狀態結合起來,就能揭示這一切。FlyOnTime.us充分體現了一個不收集或控制信息的實體單位是如何像搜索引擎或大零售商一樣,能夠獲取數據並利用其創造價值。

但是,直到目前仍然沒有一個簡單的方法來收集、存儲和分析這些數據,這嚴重限制了提取其潛在價值的機會。在亞當·斯密論述18世紀勞動分工時所引用的著名的大頭針製造案例中,監督員需要時刻看管所有工人、進行測量並用羽毛筆在厚紙上記下產出數據,而且測量時間在當時也較難把握,因為可靠的時鐘都尚未普及。技術環境的限制使古典經濟學家在經濟構成的認識上像是戴了一副墨鏡,而他們卻幾乎沒有意識到這一點,就像魚不知道自己是濕的一樣。因此,當他們在考慮生產要素(土地、勞動力和資本)時,信息的作用嚴重地缺失了。雖然在過去的兩個世紀中,數據的採集、存儲和使用成本一直在下降,但直到今天也仍然維持在相當昂貴的水平。
過去,一旦數據的基本用途實現了,我們便認為數據已經達到了它的目的,準備將其刪除,讓它就此消失。畢竟,數據的首要價值已經得以提取。而在大數據時代,數據就像是一個神奇的鑽石礦,在其首要價值被發掘之後仍能不斷產生價值。數據的潛在價值有三種最為常見的釋放方式:基本再利用、數據集整合和尋找「一份錢兩份貨」。而數據的折舊值、數據廢氣和開放數據則是更為獨特的方式。

大數據先鋒

丹麥癌症協會:手機是否增加致癌率

丹麥擁有1985年手機推出以來所有手機用戶的資料庫。這項研究分析了1990年至2007年間擁有手機的用戶(企業用戶和其他社會經濟數據不可用的用戶除外),共涉及358403人。該國同時記錄了所有癌症患者的信息,在那期間共有10729名中樞神經系統腫瘤患者。結合這兩個數據集后,研究人員開始尋找兩者的關係:手機用戶是否比非手機用戶顯示出較高的癌症發病率?使用手機時間較長的用戶是否比時間較短的用戶更容易患上癌症?

儘管研究的規模很大,數據卻沒有出現絲毫混亂或含糊不清。為了滿足醫療或商業的目的,兩個數據集都採用了嚴格的質量標準,信息的收集不存在偏差。事實上,數據是在多年前就已經生成的,當時的目的與這項研究毫不相關。最重要的是,這項研究並沒有基於任何樣本,卻很接近「樣本=總體」的準則,即包括了幾乎所有癌症患者和移動用戶。數據包含了所有的情況,這意味著研究人員掌握了各種亞人群組信息,比如吸煙人群。

最後,研究沒有發現使用行動電話和癌症風險增加之間存在任何關係。因此,當2011年10月研究結果在《英國醫學雜誌》上發布時,並未在媒體中引起任何轟動。但是如果兩者之間存在關聯的話,它可能馬上就會登上世界各地的頭版頭條,而「重組數據」也可能會隨之名聲大噪。

數據就像一個神奇的鑽石礦,當它的首要價值被發掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。
數據再利用的價值對於那些收集或控制著大型數據集但目前卻很少使用的機構來說是個好消息,比如在那些線下運作的傳統企業。他們或許正坐在尚未開發的信息噴泉上。有些企業可能已經收集了數據並使用過一次(如果可能的話),且因為存儲成本低而將其保存了下來,數據科學家們稱這類保存舊信息的計算機為「數據墳墓」。互聯網和科技公司在利用海量數據方面走在了最前沿,因為他們僅僅通過在線就能收集大量的信息,分析能力也領先於其他行業。但是,所有的公司都可能會從中獲利。麥肯錫的諮詢顧問們列舉了一家物流公司(名稱保密)。這家公司在交付貨物的過程中積累了大量產品的全球出貨信息。嗅到了這個機會之後,該公司成立了專門的部門,以商業和經濟預測的形式出售匯總數據。換言之,它創造了谷歌過去搜索查詢業務的一個線下版本。
隨著時間的推移,大多數數據都會失去一部分基本用途。在這種情況下,繼續依賴於舊的數據不僅不能增加價值,實際上還會破壞新數據的價值。比如十年前你在亞馬遜買了一本書,而現在你可能已經對它完全不感興趣。如果亞馬遜繼續用這個數據來向你推薦其他書籍,你就不太可能購買帶有這類標題的書籍,甚至會擔心該網站之後的推薦是否合理。這些推薦的依據既有舊的過時的信息又有近期仍然有價值的數據,而舊數據的存在破壞了新數據的價值。
上市的前一晚,銀行對Facebook的定價是每股38美元,總估值1040億美元(也就是說,大約是波音公司、通用汽車和戴爾電腦的市值之和)。那麼事實上Facebook價值多少呢?在2011年供投資者評估公司的審核賬目中,Facebook公布的資產為66億美元,包括計算機硬體、專利和其他實物價值。那麼Facebook公司資料庫中存儲的大量信息,其賬麵價值是多少呢?零。它根本沒有被計入其中,儘管除了數據,Facebook幾乎一文不值。