大數(shù)據(jù)思維
一、大數(shù)據(jù)的內(nèi)涵
近年來伴隨著不少國家的寬帶化戰(zhàn)略的實施、云計算服務(wù)的起步、物聯(lián)網(wǎng)應(yīng)用的鋪開和移動互聯(lián)網(wǎng)的崛起,數(shù)據(jù)量與時俱增,數(shù)據(jù)處理能力也發(fā)展迅速,數(shù)據(jù)量積累到一定程度其資源屬性越加明晰,顯示出開發(fā)的價值。同時,社會的節(jié)奏越來越快,要求快速的反應(yīng)和精細(xì)的管理,急需借助對數(shù)據(jù)的分析來科學(xué)決策,催生了對大數(shù)據(jù)開發(fā)的需求,大數(shù)據(jù)被稱為將引發(fā)生活、工作和思維變革的一次革命。
全球新產(chǎn)生的數(shù)據(jù)年增40%,全球信息總量每兩年就可以翻番。2011年全球新產(chǎn)生和復(fù)制的數(shù)據(jù)量達(dá)到l.8ZB(ZB即一千EB或百萬PB),如果用內(nèi)存為32GB的iPOd來存的話,數(shù)量需要575億個,足以砌起兩座長城,由此可見大數(shù)據(jù)時代已經(jīng)到來。全球的數(shù)據(jù)總量是由無數(shù)的數(shù)據(jù)集構(gòu)成的,從數(shù)據(jù)來源分類,可分為社會的數(shù)據(jù)、通過傳感器收集的來自物理空間的數(shù)據(jù)和網(wǎng)絡(luò)空間的數(shù)據(jù)。社會數(shù)據(jù)包括政府?dāng)?shù)據(jù),例如國家稅務(wù)總局每月收集全國數(shù)據(jù)4TB,已集中的結(jié)構(gòu)化數(shù)據(jù)為260TB。傳感器收集的數(shù)據(jù)包括空客飛機(jī)等??湛惋w機(jī)裝有大量傳感器,每個引擎每飛行小時產(chǎn)生20TB,一架飛機(jī)四個引擎,從倫敦到紐約每次飛行產(chǎn)生640TB級數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)可細(xì)分為三類,自媒體數(shù)據(jù),包括在社交網(wǎng)絡(luò)、博客、微博等應(yīng)用中的用戶生成數(shù)據(jù);日志數(shù)據(jù),包括搜索引擎、運營商、網(wǎng)購服務(wù)、金融服務(wù)等網(wǎng)絡(luò)服務(wù)所產(chǎn)生的用戶行為、交易等日志數(shù)據(jù);富媒體數(shù)據(jù),包括文本、音視頻、圖片、文字等。淘寶單日產(chǎn)生的日志數(shù)據(jù)量超過50TB,存儲量40PB。服務(wù)行業(yè)也會累計大量的日志數(shù)據(jù),例如國家電網(wǎng)公司年均產(chǎn)生數(shù)據(jù)5l0TB(不含視頻),目前累計數(shù)據(jù)5PB。醫(yī)療業(yè)也是數(shù)據(jù)密集行業(yè),廣州中山大學(xué)第一附屬醫(yī)院2008年所存的數(shù)據(jù)就超過100TB,預(yù)計2015年將超過PB級。
大數(shù)據(jù)是相對于一般數(shù)據(jù)而言的,目前對大數(shù)據(jù)尚缺權(quán)威的嚴(yán)格定義,但較普遍的解釋是指“難以用常規(guī)的軟件工具在容許的時間內(nèi)對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合”。規(guī)模大是大數(shù)據(jù)的標(biāo)志之—,但大數(shù)據(jù)之所以難處理不僅在于規(guī)模大,更大的挑戰(zhàn)是其隨時間的變化快和類型的多樣性,根據(jù)可否用表格或關(guān)系數(shù)據(jù)庫的表和視圖來表示而區(qū)分為結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù),照片和視頻等就是典型的非結(jié)構(gòu)數(shù)據(jù)。隨時間和類型的變化增加了大數(shù)據(jù)的復(fù)雜性但也同時豐富了大數(shù)據(jù)的內(nèi)涵。通常用4V(Volume、Velocity、Variety。Value)來反映大數(shù)據(jù)的特征,即量大、增長快、多樣性和高價值。從這一點來看,對大數(shù)據(jù)僅僅冠以“大”這一形容詞是不全面的,只不過在大數(shù)據(jù)的4V中,規(guī)模相對于變化和類型這兩個特征容易定量,而且即便是單一類型的數(shù)據(jù)集(例如文本文件),只要有足夠的規(guī)模也能稱得上大數(shù)據(jù)。數(shù)據(jù)的規(guī)模越大,通常對數(shù)據(jù)挖掘所得到的事物演變規(guī)律越可信,數(shù)據(jù)分析的結(jié)果也越有代表性,因此對大數(shù)據(jù)這一詞匯突出其規(guī)模大這一特征也是可理解的。
需要指出的是,雖然數(shù)據(jù)規(guī)模與數(shù)據(jù)挖掘得到的價值之間有相關(guān)性,但兩者難以用線性關(guān)系表達(dá)。這取決于數(shù)據(jù)的價值密度,同一事件的不同的數(shù)據(jù)集即便有相同的規(guī)模(例如對同一觀察對象收集的長時間稀疏數(shù)據(jù)和短時間密集數(shù)據(jù))其價值也可能相差很多,因為數(shù)據(jù)集“含金量”不同??偟膩碚f,大數(shù)據(jù)的價值密度低,大數(shù)據(jù)中多數(shù)數(shù)據(jù)可能是重復(fù)的,忽略其中一些數(shù)據(jù)并不影響對其挖掘的結(jié)果,只有足夠規(guī)模的有意義的數(shù)據(jù)其價值才能聚沙成塔,數(shù)據(jù)挖掘的過程是大海撈針或沙里淘金,歷經(jīng)去粗存精、去偽存真、撥云見日、由表及里到最后水落石出,正因為大數(shù)據(jù)所蘊含的規(guī)律或本質(zhì)不容易得到,物以稀為貴,才顯示出大數(shù)據(jù)的價值。從這一意義上看,僅僅用難處理的數(shù)據(jù)集來定義大數(shù)據(jù)是不夠的,應(yīng)該強調(diào)的是處理所能獲得的結(jié)論的可信度而不是處理的難度,即大數(shù)據(jù)是指其規(guī)模大到(或變量復(fù)雜到)從中可以挖掘出符合事物發(fā)展規(guī)律性的數(shù)據(jù)集。
大數(shù)據(jù)不僅是一種資源,也是一種方法,伴隨大數(shù)據(jù)產(chǎn)生數(shù)據(jù)密集型科學(xué),有人將它稱為是繼實驗科學(xué)、理論科學(xué)和計算科學(xué)之后的第四種科學(xué)研究模式,這一研究模式的特點表象為不在意數(shù)據(jù)的雜亂,但強調(diào)數(shù)據(jù)的量;不要求數(shù)據(jù)精準(zhǔn),但看重其代表性;不刻意追求因果關(guān)系,但重視規(guī)律總結(jié)。這一模式不僅用于科學(xué)研究,更多的會用到各行各業(yè),成為從復(fù)雜現(xiàn)象中透視本質(zhì)的有用工具。有人擔(dān)心從大數(shù)據(jù)中發(fā)現(xiàn)事物發(fā)展規(guī)律并預(yù)測未來的做法強調(diào)了有章可循,可能會妨礙創(chuàng)新。事實上檢驗技術(shù)創(chuàng)新、商業(yè)模式創(chuàng)新還是管理創(chuàng)新,不是看是否使用新的模式或顛覆性技術(shù),而是看應(yīng)用領(lǐng)域的開拓和市場上的引領(lǐng),成功的重要因素正是符合客觀規(guī)律。蘋果公司注意到黑萄手機(jī)作為第一款智能終端的潛力,蘋果公司的iPhone用觸摸屏代替鍵盤并開發(fā)了App Store應(yīng)用商店,完善了移動互聯(lián)網(wǎng)的產(chǎn)業(yè)鏈,開創(chuàng)了移動智能終端時代,方便了用戶的使用,順應(yīng)并引導(dǎo)移動互聯(lián)網(wǎng)的發(fā)展,這是大數(shù)據(jù)思維與創(chuàng)新文化結(jié)合的范例。
大數(shù)據(jù)還是一個新學(xué)科,大數(shù)據(jù)技術(shù)是指設(shè)計用于高速收集、發(fā)現(xiàn)和分析從多種類型的大規(guī)模數(shù)據(jù)中提取經(jīng)濟(jì)價值的新一代技術(shù)和體系。涉及數(shù)據(jù)存儲、合并壓縮、清洗過濾、格式轉(zhuǎn)換、統(tǒng)計分析、知識發(fā)現(xiàn)、可視呈現(xiàn)、關(guān)聯(lián)規(guī)則、分類聚類。序列路徑和決策支持等技術(shù)。
大數(shù)據(jù)將帶動起大數(shù)據(jù)產(chǎn)業(yè)和市場,包括服務(wù)器、存儲器、聯(lián)網(wǎng)設(shè)備、軟件(數(shù)據(jù)組織與管理軟件。分析與發(fā)現(xiàn)及可視化軟件、決策支持軟件等)與服務(wù)(按照云計算的觀點可將大數(shù)據(jù)服務(wù)業(yè)分為數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)軟件的開發(fā)工具平臺服務(wù)、數(shù)據(jù)分析軟件平臺服務(wù)和提供數(shù)據(jù)分析解決方案的服務(wù))。國外咨詢公司W(wǎng)ikihon認(rèn)為全球2013年的大數(shù)據(jù)產(chǎn)值為186億美元,年增58%,其中硬件、軟件和服務(wù)分別占產(chǎn)值的38%、22%和40%。但硬件、軟件和服務(wù)三者之和也僅僅是狹義的大數(shù)據(jù)產(chǎn)業(yè),通過大數(shù)據(jù)挖掘的服務(wù),大數(shù)據(jù)應(yīng)用到各行各業(yè),提升生產(chǎn)效率支撐節(jié)能降耗,促進(jìn)經(jīng)濟(jì)發(fā)展,因此廣義的大數(shù)據(jù)產(chǎn)業(yè)的產(chǎn)值或者說對GDP的貢獻(xiàn)更多地體現(xiàn)在工業(yè)、農(nóng)業(yè)、交通運輸、建筑等行業(yè),麥肯錫公司就預(yù)測大數(shù)據(jù)能使制造業(yè)裝配成本降低50%,零售業(yè)增加60%的利潤。事實上大數(shù)據(jù)的分析在社會治理和民生服務(wù)上的效益也很顯著,這不是簡單地用GDP可以衡量的,麥肯錫估計對醫(yī)療和公共管理分別可獲得年度收益數(shù)千億美元,可見廣義的大數(shù)據(jù)產(chǎn)業(yè)百倍于狹義的大數(shù)據(jù)產(chǎn)業(yè)。麥肯錫公司還預(yù)見開放數(shù)據(jù)將在全球教育、運輸、消費產(chǎn)品、電力。油氣、保健和消費者財務(wù)這7個領(lǐng)域釋放3.2—5.4萬億美元的經(jīng)濟(jì)價值??傊?,大數(shù)據(jù)服務(wù)業(yè)屬性大于制造業(yè),對其他產(chǎn)業(yè)的影響大于對直接產(chǎn)業(yè)的影響,社會效益大于直接經(jīng)濟(jì)效益。大數(shù)據(jù)影響之大和受到廣泛重視也正是因其溢出效應(yīng)明顯。
二、大數(shù)據(jù)思維在各領(lǐng)域的應(yīng)用
以下列舉一些大數(shù)據(jù)的應(yīng)用例子,從中可以看出大數(shù)據(jù)是資源,利用大數(shù)據(jù)所積累的信息找出網(wǎng)民的情緒與宏觀經(jīng)濟(jì)的關(guān)聯(lián),利用顧客的購物行為分析顧客類型,利用企業(yè)交易行為建立誠信記錄,利用歷史統(tǒng)計的規(guī)律來預(yù)測未來。大數(shù)據(jù)是方法論,基于數(shù)據(jù)密集型科學(xué)可用類比來簡化求解??傊?,大數(shù)據(jù)思維可以應(yīng)用到各行各業(yè)。
大數(shù)據(jù)在宏觀經(jīng)濟(jì)管理領(lǐng)域的應(yīng)用。采購經(jīng)理人指數(shù)(PMI)通常是由統(tǒng)計部門發(fā)布的,但I(xiàn)BM的日本公司建立了—個經(jīng)濟(jì)指標(biāo)預(yù)測系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出影響制造業(yè)的480項經(jīng)濟(jì)數(shù)據(jù),再計算出PMI預(yù)測值,這個根據(jù)網(wǎng)上的新聞分析出的PMI,準(zhǔn)確度相當(dāng)高。印第安納大學(xué)學(xué)者利用谷歌提供的心情分析工具,從用戶近千萬條短信、微博留言中預(yù)測道瓊斯工業(yè)指數(shù)。用戶的短信、微博是不會直接討論道瓊斯工業(yè)指數(shù)的,但字里行間會流露出當(dāng)前的心清,整個社會用戶的心情與經(jīng)濟(jì)增長狀況是相關(guān)的,用這種方法預(yù)測道瓊斯工業(yè)指數(shù)的準(zhǔn)確率高達(dá)87%。淘寶網(wǎng)建立了“淘寶CPI”,它通過采集、編制淘寶網(wǎng)上成交額比重達(dá)到57.4%的390個類目的熱門商品價格來反映網(wǎng)絡(luò)購物市場整體狀況,以及城市主流人群的消費態(tài)勢,它比國家統(tǒng)計局公布的CPI還提前半個月預(yù)測經(jīng)濟(jì)的走勢。
大數(shù)據(jù)在制造業(yè)的應(yīng)用。豐田公司利用數(shù)據(jù)分析在試制樣車之前避免了80%的缺陷。美國通用電氣公司通過對所生產(chǎn)的2萬臺噴氣引擎的數(shù)據(jù)分析,開發(fā)的算法能夠提前一個月預(yù)測其維護(hù)需求,準(zhǔn)確率達(dá)到70%。企業(yè)通過對網(wǎng)上數(shù)據(jù)分析了解市場動向,管理采購和合理庫存。華爾街對沖基金依據(jù)購物網(wǎng)站顧客評論分析企業(yè)銷售狀況。華爾街銀行根據(jù)求職網(wǎng)站崗位數(shù)量推斷就業(yè)率。百度將網(wǎng)民對汽車的各類搜索請求進(jìn)行大數(shù)據(jù)挖掘,幫助一個汽車企業(yè)深人了解消費者需求,設(shè)計新品及資源調(diào)配。
大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用。谷歌前雇員在硅谷創(chuàng)辦Climate公司,從美國政府獲得30年的氣候60年的農(nóng)作物收成和14TB的土壤的歷史數(shù)據(jù),同時還利用來自250萬個地點的氣候測量數(shù)據(jù)和1500億例土壤觀察數(shù)據(jù),生成10萬億個模擬氣候數(shù)據(jù)點。該公司預(yù)測任一農(nóng)場的下一年的產(chǎn)量,向農(nóng)戶提供天氣變化、作物、病蟲害和災(zāi)害、肥料、收獲、市場價格等咨詢,并出售個性化保險,承諾每英畝的玉米利潤增加100美元,如果出現(xiàn)未能預(yù)測的惡劣天氣損壞莊稼,公司將及時賠付。最近該公司被孟山都公司以11億美元的價格收購。
大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用。沃爾瑪基于每個月4500萬的網(wǎng)絡(luò)購物數(shù)據(jù),并結(jié)合社交網(wǎng)絡(luò)上有關(guān)產(chǎn)品的大眾評分,開發(fā)機(jī)器學(xué)習(xí)語義搜索引擎“北極星”,方便在線購物者測覽,在線購物人數(shù)增加10%-15%。沃爾瑪還通過對消費者的購物行為進(jìn)行分析,了解顧客購物習(xí)慣,分析適合搭配售賣的商品,優(yōu)化商場的布局和貨架排列。在美國排行第二的折扣超市Target選出孕婦常購的典型商品,建立懷孕預(yù)測指數(shù),針對性派送孕婦用品的優(yōu)惠廣告,還將分析用到各種細(xì)分客戶群。在淘寶網(wǎng)上買東西時,消費者會在阿里的廣告交易平臺上留下記錄,阿里不僅從交易平臺把消費記錄拿來自己使用,還會把消費記錄賣給其他商家。比如說,某人在淘寶網(wǎng)上買了化妝品,銷售化妝品的商家買到這個消費記錄對應(yīng)的顧客IP地址后,就會留意其后續(xù)的消費行為。一旦商家發(fā)現(xiàn)該用戶測覽與自己有廣告關(guān)系的網(wǎng)站時,馬上就會彈出一個賣化妝品的廣告,這樣就很容易達(dá)成交易,最終結(jié)果是顧客、商家、網(wǎng)站、阿里集團(tuán)都各有所得。
大數(shù)據(jù)在金融業(yè)的應(yīng)用。華爾街“德溫特資本市場”公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,它通過判斷全世界高興的人多還是焦慮的人多,依此決定公司股票的買人或賣出,它常在人們買股票之前買入股票,也常在人們拋股票之前拋售股票,從而獲得較好的收益。最近由于經(jīng)濟(jì)下行壓力仍然較大,很多中小企業(yè)貸款難,阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務(wù)健康和誠信經(jīng)營的企業(yè),無需擔(dān)保向這些中小企業(yè)提供貸款,目前阿里公司已放貸上千億元,壞賬率僅為0.3%,遠(yuǎn)低于我國四大商業(yè)銀行的壞賬率。2012年京東商城收購網(wǎng)銀在線,聯(lián)手中國銀行為商家提供貸款,2013年12月“京保貝”正式上線,通過京東平臺上的大數(shù)據(jù)分析,自動完成審批和風(fēng)險控制,實現(xiàn)放款的時間縮短到3分鐘?;ヂ?lián)網(wǎng)公司在將電商平臺變化為融資平臺的同時,還通過與基金公司合作打造吸儲投資平臺。2013年6月下旬,阿里集團(tuán)推出余額寶,對接天弘基金,以1元起購和高于銀行的年化收益率,2013年底余額寶開戶數(shù)4303萬,累計申購資金超1853億元。2013年底,百度理財和網(wǎng)易理財先后仿效,甚至不惜拿錢來圈住客戶聚攏人氣,因為互聯(lián)網(wǎng)的用戶群是大數(shù)據(jù)的源泉。
大數(shù)據(jù)在交通運輸業(yè)的應(yīng)用。美國UPS每天平均運輸163萬件包裹,用傳感器跟蹤4.6萬輛車,優(yōu)化運輸路線,2011年少跑了8500萬英里路程,節(jié)約了840萬加侖燃料。中遠(yuǎn)物流公司有100多個配送中心,3000個網(wǎng)點,裝GPS的上萬輛車每月產(chǎn)生2億條信息,據(jù)此優(yōu)化運輸路線,減排10%。美國Airsage公司每天通過處理來自公路汽車的上百萬手機(jī)用戶的150億條位置信息,為超過100個城市提供實時交通信息。
大數(shù)據(jù)在外貿(mào)中的應(yīng)用。美國Panjiva公司(磐聚網(wǎng))利用政府開放的海關(guān)貨運數(shù)據(jù)建立全球外貿(mào)搜索引擎,每年采集上億條貨運記錄,包括發(fā)貨人、收貨人、集裝箱內(nèi)貨物內(nèi)容和價值等,同時提供信用報告、合格證、網(wǎng)站和供應(yīng)商等信息,成為面向采購商和供應(yīng)商的智能B2B平臺,為買賣雙方搭建供應(yīng)鏈。
大數(shù)據(jù)在影視行業(yè)的應(yīng)用。我國新影數(shù)訊公司掌握了2萬部電影、6萬名藝人、4000位導(dǎo)演的數(shù)據(jù)資料,并能對微博關(guān)注影視娛樂的1.2億人進(jìn)行偏好分析。其開發(fā)的iFilm十系統(tǒng)通過對影名、劇本、角色、演員陣容、宣傳情況、主題曲等70多個維度和變量進(jìn)行數(shù)據(jù)分析來綜合測評,預(yù)測一部電影的市場表現(xiàn)等情況,準(zhǔn)確率可以高達(dá)80%。美國Netflix視頻網(wǎng)站每天記錄用戶3000多萬個觀看的動作(暫停、回放、快進(jìn)、停止)和400萬個評分,300萬次搜索,利用積累的大數(shù)據(jù)預(yù)判觀眾喜好,據(jù)此選擇劇本、導(dǎo)演和演員及調(diào)整劇情,針對性向用戶宣傳,吸引用戶從試用轉(zhuǎn)向付費訂閱。
大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用。谷歌把5000萬條美國人搜索詞和美國疾控中心在2003—2008年間流感傳播期的數(shù)據(jù)進(jìn)行了比較,建立數(shù)學(xué)模型,結(jié)合45條檢索詞條,在2009年甲型H1N1流感爆發(fā)的幾周前,谷歌就給出了預(yù)測,與隨后疾控中心公布的數(shù)據(jù)相關(guān)性高達(dá)97%。中國科學(xué)院與百度公司合作,精選了160多條關(guān)鍵詞,對5年來的數(shù)據(jù)進(jìn)行建模分析,得出中國艾滋感染人群的分布情況,其估值與后期衛(wèi)生部門公布的結(jié)果基本一致。
大數(shù)據(jù)提供機(jī)器翻譯服務(wù)。過去機(jī)器翻譯是盡可能讓計算機(jī)學(xué)會語法和查字典,但語言太復(fù)雜了,很多機(jī)器翻譯難以實用。谷歌將語言視為能夠判別可能性的數(shù)據(jù),將語義挑戰(zhàn)變成數(shù)學(xué)問題,利用已經(jīng)索引過的海量資料庫,從互聯(lián)網(wǎng)上找各種文章及對應(yīng)的譯本,找出多語言數(shù)據(jù)之間的語法和文字對應(yīng)規(guī)律,盡管這些語料庫來自互聯(lián)網(wǎng)上內(nèi)容,會有語法錯誤和拼寫錯誤等,只要無礙理解即可,因為常人說話和寫文章也不見得每句都嚴(yán)格符合語法,基于類比的翻譯方法比基于語法構(gòu)詞的翻譯方法更快,可見大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更有效。最近微軟公司也開發(fā)了26種語言的實時翻譯系統(tǒng),聲稱使用了上百萬網(wǎng)頁上的素材和大數(shù)據(jù)及深度神經(jīng)網(wǎng)絡(luò)技術(shù)。
大數(shù)據(jù)在體育訓(xùn)練中的應(yīng)用。美國NBA從80年代開始將球員在賽場上的表現(xiàn)數(shù)據(jù)化,經(jīng)過30多年的積累已達(dá)到可辨別每一個球員在場上的弱點,方便教練進(jìn)行針對性戰(zhàn)術(shù)安排。目前30家NBA球隊俱樂部中聘請了數(shù)據(jù)分析師的15家的平均勝率達(dá)到59.3%,而另一半球隊僅有平均40、7%的勝率。
大數(shù)據(jù)在熱點檢測中的應(yīng)用。利用短信、微博、微信和搜索引擎可以收集熱點事件與挖掘輿情。通過對微博用戶建立檔案,提前關(guān)注可能引起社會不穩(wěn)定的因素。在長假之前,很多人會在網(wǎng)絡(luò)上搜索旅游點、旅店、火車與飛機(jī)航班信息或自駕游的路線等,由此可預(yù)知哪些旅游點和交通線路會擁塞,利用百度地圖等所獲得的百度春運遷徙圖就是一例。2013年5月昆明市民上街反對“PX化工項目”上馬,早在市民集會前一周該項目的百度搜索關(guān)注度劇增。
大數(shù)據(jù)在治安管理中的應(yīng)用。2012年美國加州大學(xué)分析洛杉機(jī)市過去1300多萬起案件,找到了各小區(qū)發(fā)案與日期、天氣、交通狀況及其它相關(guān)事件的關(guān)系,建立犯罪活動預(yù)測平臺,當(dāng)?shù)氐木瘑T每天按該系統(tǒng)發(fā)出的指令前往指定的小區(qū)巡邏,該系統(tǒng)已使該地區(qū)財產(chǎn)犯罪率和盜竊案件分別下降12%和26%。2013年8月美國《大西洋月刊》報道,紐約的一對夫婦因在谷歌上曾經(jīng)搜索“高壓鍋”和“背包”被一個由6人組成的聯(lián)合反恐部隊以“查水表”名義上門盤問是否拿高壓鍋來做炸彈。
大數(shù)據(jù)在政治領(lǐng)域的應(yīng)用。2012年美國大選,奧巴馬競選團(tuán)隊,有數(shù)千名志愿者,建立選民檔案并通過社交網(wǎng)絡(luò)和微博等收集選民的愛好和關(guān)注,運行66000個計算機(jī)分析每次演說的效果,針對性做選民的工作,例如某個選民在臉譜網(wǎng)(facebook)或者推特網(wǎng)上的大部分帖子都是關(guān)于環(huán)保和醫(yī)療成本,他們就會以奧巴馬名義發(fā)一封專門談?wù)摥h(huán)境和醫(yī)保問題的電子郵件,讓該選民認(rèn)為奧巴馬想其所想。這—策略對奧巴馬獲勝起到重要作用,而且與2008年的競選相比,巴馬競選的捐助者增加了50萬人.?dāng)?shù)字籌款增加了20%,廣告投放效率提升15%。
大數(shù)據(jù)在軍事領(lǐng)域的應(yīng)用。美國國防部目標(biāo)是利用大數(shù)據(jù)將分析人員從任意語言文字資料中提取信息的能力提高10O倍。美國中情局要求利用大數(shù)據(jù)將分析搜集數(shù)據(jù)的時間由63天縮短為27分鐘。
三、大數(shù)據(jù)的誤區(qū)
誤區(qū)之一:中小數(shù)據(jù)沒有挖掘的價值。按照維基百科的解釋,“大數(shù)據(jù)規(guī)模的標(biāo)準(zhǔn)是持續(xù)變化的,當(dāng)前泛指單一數(shù)據(jù)集的大小在幾十TB和數(shù)PB之間”,主要依據(jù)可能是從目前的數(shù)據(jù)處理技術(shù)水平來界定的,未來隨著技術(shù)進(jìn)步,標(biāo)準(zhǔn)將水漲船高。IDC在2011年的報告中表示,在被創(chuàng)建的信息數(shù)據(jù)總量中,有75%來自于個人,這包括文字、圖片。視頻和音樂,一般情況下個人產(chǎn)生的數(shù)據(jù)集還達(dá)不到幾十TB量級。微軟的研究發(fā)現(xiàn),臉譜網(wǎng)上90%的Hadoop任務(wù)數(shù)據(jù)集在100GB以下,雅虎的數(shù)據(jù)集規(guī)模平均為12.8GB,顯然若按照上述標(biāo)準(zhǔn),日常的數(shù)據(jù)集絕大多數(shù)都不可能入圍大數(shù)據(jù),可以說能稱得上大數(shù)據(jù)的數(shù)據(jù)集的比例是很低的,但其規(guī)模則占了全球數(shù)據(jù)集的數(shù)據(jù)總量的90%以上。社會上對大數(shù)據(jù)的關(guān)注,更多的應(yīng)引導(dǎo)到對數(shù)據(jù)資源獲得與利用的重視,事實上,對未到TB級規(guī)模的數(shù)據(jù)挖掘也有價值,目前報道的一些大數(shù)據(jù)挖掘應(yīng)用的例子,不少也只是TB級的規(guī)模。
誤區(qū)之二:要有解。決非結(jié)構(gòu)數(shù)據(jù)挖掘的技術(shù)才能開展大數(shù)據(jù)分析。根據(jù)Cisco。公司VNI報告(2012——2017),在2012年末視頻占全球消費者互聯(lián)網(wǎng)流量57%,預(yù)計2017年此值為69%,如果計入P2P,2017年此值為80%一90%。除了消費者流量外,還有企事業(yè)單位的流量,其規(guī)模與消費者流量相當(dāng),2016年全部互聯(lián)網(wǎng)流量中55%將為視頻。視頻是非結(jié)構(gòu)性數(shù)據(jù),視頻數(shù)據(jù)集的規(guī)模都很大、日積月累自然就成為大數(shù)據(jù),有理由相信大數(shù)據(jù)中90%都是非結(jié)構(gòu)數(shù)據(jù)。對非結(jié)構(gòu)數(shù)據(jù)的分析需要有先進(jìn)的語義技術(shù)和基于元數(shù)據(jù)的標(biāo)簽算法等,盡管語音的機(jī)器翻譯有了可喜進(jìn)展,但視頻圖像的智能識別仍然比較遙遠(yuǎn),2012年斯坦福大學(xué)與谷歌合作建立深度學(xué)習(xí)網(wǎng)絡(luò),對來自YouTube的上千萬幅視頻幀自主學(xué)習(xí),用10天學(xué)會了識別貓的臉孔,然后從2萬張未見過的照片中找貓,準(zhǔn)確率只達(dá)到15.8%,可見非結(jié)構(gòu)性數(shù)據(jù)的挖掘技術(shù)到實用還有相當(dāng)距離。目前國內(nèi)外都有很多大數(shù)據(jù)應(yīng)用成功的例子,但基本上還是針對結(jié)構(gòu)性數(shù)據(jù),所以不必等待非結(jié)構(gòu)數(shù)據(jù)挖掘技術(shù)的成熟,對結(jié)構(gòu)性數(shù)據(jù)的挖掘是大數(shù)據(jù)應(yīng)用的切人點。
誤區(qū)之三:數(shù)據(jù)樣本的規(guī)模比普遍性更重要。這里涉及對被觀察對象取樣數(shù)據(jù)的密集度和時間或空間跨度問題,例如將一個人每分鐘的身體數(shù)據(jù)記錄下來,對了解該人的身體狀況是有用的,但如果將他的每秒的身體數(shù)據(jù)都記錄下來,數(shù)據(jù)量將較前者高60倍,與按分鐘記錄的數(shù)據(jù)相比,其價值并不能增加。在相同規(guī)模下,例如收集身體約86400次數(shù)據(jù)樣值,以秒為間隔的話,大概就一天,以分鐘間隔的話就兩個月,從保健的角度,后者的數(shù)據(jù)更有價值。統(tǒng)計一個人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計60個人每小時的身體狀況數(shù)據(jù)相比,可能后者在統(tǒng)計上更有意義。我們講數(shù)據(jù)挖掘需要有足夠規(guī)模的數(shù)據(jù),但前提是這些數(shù)據(jù)要有一定的時間或空間跨度,即具有普遍性。數(shù)據(jù)樣本密度與被觀察事件或?qū)ο笥嘘P(guān),例如風(fēng)力發(fā)電機(jī)裝有多種傳感器,每隔幾毫秒測一次,用于檢測葉片、變速箱、變頻器等的磨損程度。
誤區(qū)之四:所有數(shù)據(jù)都等同重要。我們可以用多種類型的傳感器檢測環(huán)境污染,雖然各類傳感器都是有用的,但不是等同重要的,需要依據(jù)檢測不同的指標(biāo)來對不同類型的傳感器結(jié)果加權(quán)處理。例如根據(jù)藍(lán)藻爆發(fā)強度與水質(zhì)相關(guān)程度,在分析藍(lán)藻可能出現(xiàn)時,將溶解氧、水溫和電導(dǎo)率的數(shù)據(jù)加權(quán)值取得高一些,對氨氮、硝酸鹽和PH值的數(shù)據(jù)則加權(quán)值可以低一些。此外,每一類數(shù)據(jù)的重要性會隨關(guān)注點不同而變,一個人的身體狀況可以用多種指標(biāo)來衡量,顯然所關(guān)心的疾病不同,與不同指標(biāo)對應(yīng)的數(shù)據(jù)其重要性也不同。同一類型的傳感器在不同位置和不同時間收集到的數(shù)據(jù)其重要性也不同。以城市交通監(jiān)控攝像頭為例,在路口的攝像頭,其作用就比非路口的重要,在沒有車輛和行人的深夜,沒有感興趣信息的攝像數(shù)據(jù)沒有保留價值,無需存儲,但需要加上時間標(biāo)簽注明舍棄了哪一時段的圖像幀,有些情況下需要對每一幀感興趣的區(qū)域增加分辨率,而其他區(qū)域降低比特率。另外,同一類型的數(shù)據(jù)其價值也因收藏時間的長短而異,一般而言,時間間隔越久,其價值下降,因此存儲的數(shù)據(jù)需要壓縮以節(jié)省成本。
誤區(qū)之五:數(shù)據(jù)都是可信的。傳感器收集的數(shù)據(jù)并非都是可信的,特別是歷史上該傳感器的數(shù)據(jù)與同類的其他傳感器報出的數(shù)據(jù)差異很大時,該數(shù)據(jù)就應(yīng)棄用。網(wǎng)絡(luò)數(shù)據(jù)中真?zhèn)位祀s,特別是微博傳播不實消息散布很快,而微信圈子內(nèi)的消息不易監(jiān)控,對信息內(nèi)容管理提出挑戰(zhàn)。過去往往認(rèn)為“有圖有真相”,事實上圖片可以移花接木、張冠李戴、時空錯亂,或者照片是對的,可是文字解釋是捏造的,這樣的事情已屢見不鮮。一些網(wǎng)站規(guī)定所有帖子不論是否真實一律對轉(zhuǎn)發(fā)次數(shù)設(shè)置一個上限,從輿情收集效果看,人為的截尾導(dǎo)致失去真實性?;谒阉髟~頻的判斷不一定是獨立隨機(jī)的,谷歌的流感指數(shù)較為準(zhǔn)確預(yù)報了2008年在美國HINI流感的爆發(fā),但美國紐約州2013年1月流感流行狀況十分嚴(yán)峻,政府發(fā)布了“公共健康緊急狀態(tài)”的通告,大眾媒體的廣泛報道,影響了谷歌用戶的搜索行為,導(dǎo)致其流感指數(shù)估值出現(xiàn)了假陽性,遠(yuǎn)高于美國疾控中心的統(tǒng)計數(shù)值。基于微博的判斷也不能代表所有年齡段的人群,例如利用微博也能分析流感的發(fā)生,但微博的使用者大部分是年輕人,而季節(jié)性流感的襲擾對象多為抵抗力較弱的老年人和兒童,因此基于微博的判斷代表性不足。為了避免數(shù)據(jù)不可信,需要收集多源異構(gòu)的數(shù)據(jù),例如通過城市交通監(jiān)控系統(tǒng)可以實時掌握交通流量,但如果加上政府?dāng)?shù)據(jù)和網(wǎng)民數(shù)據(jù),就可能知道發(fā)生交通擁堵的原因。利用與歷史數(shù)據(jù)的對比也容易發(fā)現(xiàn)數(shù)據(jù)的異常,通過用數(shù)學(xué)模型來檢驗,也有助于推斷數(shù)據(jù)的可信性。
誤區(qū)之六:大數(shù)據(jù)挖掘侵犯隱私。大數(shù)據(jù)確實存在安全與隱私保護(hù)的隱患,重要的數(shù)據(jù)存儲和應(yīng)用不能過分依賴大數(shù)據(jù)分析技術(shù)與平臺,需要重視信息泄密的風(fēng)險。大數(shù)據(jù)的挖掘與利用需要有法可依,我國需要盡快制定“信息保護(hù)法”與“信息公開法”、既要鼓勵面向群體而且服務(wù)于社會的數(shù)據(jù)挖掘,又要防止針對個體侵犯隱私的行為,提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。美國政府公開數(shù)據(jù)是以城市的郵政編碼街區(qū)為單元,給出統(tǒng)計的數(shù)據(jù)而屏蔽了具體住戶的隱私。
誤區(qū)之七:大數(shù)據(jù)挖掘全靠技術(shù)。大數(shù)據(jù)挖掘涉及數(shù)據(jù)獲取、存儲、計算、傳送、分配、挖掘、呈現(xiàn)和安全等環(huán)節(jié),每一個環(huán)節(jié)都需要技術(shù)支持,大數(shù)據(jù)當(dāng)然是技術(shù)問題,還是高技術(shù)問題,大數(shù)據(jù)技術(shù)已經(jīng)成為國家間的竟?fàn)師狳c,也成為一門新興的學(xué)科。但大數(shù)據(jù)又不僅是技術(shù)問題,前述大數(shù)據(jù)的挖掘需要法律支撐,大數(shù)據(jù)分析需要創(chuàng)新人才,大數(shù)據(jù)挖掘呼喚體制改革。我國一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)但以鄰為壑,寧愿自己不用也不愿提供與有關(guān)部門共享,導(dǎo)致信息不完整或重復(fù)投資,要打破數(shù)據(jù)割據(jù)的局面。政府信息公開將起到很好的帶頭作用。
2013年6月英國北愛爾蘭召開G8會議,簽署了“開放我推憲章到提出數(shù)據(jù)開放五原則,即開放數(shù)據(jù)是基本要求、注重開放數(shù)據(jù)的數(shù)量與質(zhì)量、開放的數(shù)據(jù)讓所有人都可用、為改善治理而發(fā)布數(shù)據(jù)、開放數(shù)據(jù)激勵創(chuàng)新。從這些原則看出,開放大數(shù)據(jù)是政府的責(zé)任,使用政府開放的數(shù)據(jù)是公民的權(quán)利,開放數(shù)據(jù)不僅有利于對政府的監(jiān)督和完善社會的治理,而且能營造創(chuàng)新的文化并進(jìn)而促進(jìn)經(jīng)濟(jì)發(fā)展。因此大數(shù)據(jù)不僅是新一輪信息技術(shù)變革的特征之一,還將深刻影響到社會經(jīng)濟(jì)生活的方方面面。




