目前,,大量企業(yè)擁有海量的客戶信息,包括在線交易記錄及社交媒體數(shù)據(jù)等,。但是,,成功的關鍵是要能夠從不同渠道和來源的數(shù)據(jù)中洞察價值,而具備收集并分析這些數(shù)據(jù)能力的企業(yè)將在競爭中擁有顯著優(yōu)勢,。
但是,,數(shù)據(jù)的非結構化已經(jīng)成為企業(yè)的重大挑戰(zhàn)。企業(yè)已經(jīng)熟悉收集和分析結構化數(shù)據(jù),,如傳統(tǒng)的銷售年報信息,。目前,,許多企業(yè)都困惑于如何收集和分析更多類型的多結構化數(shù)據(jù),如網(wǎng)絡日志,、無線電射頻識別(RFID),、傳感器網(wǎng)絡、社交網(wǎng)絡,、互聯(lián)網(wǎng)文本和文件,、互聯(lián)網(wǎng)搜索索引,、詳細通話記錄、醫(yī)療記錄,、攝影檔案、視頻檔案以及電子商務交易數(shù)據(jù)等,。
由于這些數(shù)據(jù)的結構問題及大數(shù)據(jù)類型的復雜關聯(lián),導致無法應用現(xiàn)有的傳統(tǒng)技巧進行大數(shù)據(jù)分析,。這為企業(yè)帶來了新的任務,需要開發(fā)一套全新方法,,不僅能夠處理傳統(tǒng)數(shù)據(jù),,而且可以便捷地分析和應用這些新興數(shù)據(jù),而不是僅僅進行儲存,。
這種說法并不完全正確,。的確,大數(shù)據(jù)包括海量的以指數(shù)速度增長的傳統(tǒng)業(yè)務數(shù)據(jù),,也包括web應用,、傳感器網(wǎng)絡、社交網(wǎng)絡,、基因組,、視頻、照片等新渠道生成的各種數(shù)據(jù),。同時,,大數(shù)據(jù)還很復雜,進行收集,、儲存,、管理和分析的難度極大,。
目前,,兩種類型的數(shù)據(jù)都在不斷增長,。據(jù)IDC集團出版的《2011年十大預測》報告稱:“企業(yè)正被淹沒在信息海洋里,卻仍渴望獲得更多信息,,這也為大數(shù)據(jù)分析和管理帶來了巨大機遇,。”該報告指出,,企業(yè)的愿望終將實現(xiàn),。“全球數(shù)據(jù)總量(digital universe)將擴張近50%,,達到約1.8 澤它字節(jié)(約合2萬億Gb),。作為參考,專家們預計1澤它字節(jié)相當于長度高達3600萬年高清視頻文件產(chǎn)生的數(shù)據(jù)量,?!?/span>
錯誤,沒有必要!建立大數(shù)據(jù)分析能力需要人才,、流程和技術的完美組合,。如果企業(yè)尚未發(fā)掘現(xiàn)有商業(yè)智能環(huán)境的價值,在啟用大數(shù)據(jù)分析平臺前需率先解決該問題,。當傳統(tǒng)業(yè)務數(shù)據(jù)分析被賦予大數(shù)據(jù)的視野,,才能實現(xiàn)大數(shù)據(jù)分析的真正價值,帶來透明和全面的業(yè)務觀點,,從而創(chuàng)造出業(yè)務迅猛發(fā)展的機會,。
首先,企業(yè)應制定計劃,,明確應用大數(shù)據(jù)分析要達成的業(yè)務目標,。依據(jù)這些目標,企業(yè)應部署適用的硬件和軟件以應對挑戰(zhàn),。根據(jù)一線員工的需求部署商業(yè)智能解決方案,,幫助他們做出最佳決策。在采用正確的技術支持后,,企業(yè)用戶和數(shù)據(jù)科學家能夠迅速收集和分析新的數(shù)據(jù)源,,發(fā)掘業(yè)務需要的洞察力。
無論是互聯(lián)網(wǎng)公司,、財富500強、或者小型企業(yè),,都與大數(shù)據(jù)的爆炸式增長息息相關,。無論所在行業(yè)或企業(yè)規(guī)模,數(shù)據(jù)分析已經(jīng)成為當前重要的業(yè)務需求?,F(xiàn)今,,在企業(yè)運營中若無法從業(yè)務數(shù)據(jù)中獲得真正的洞察,,是絕不可行。全球主要市場的企業(yè)正在實現(xiàn)新一代高級分析應用的轉(zhuǎn)型,,通過全新方式應用海量的傳統(tǒng)數(shù)據(jù)和新型數(shù)據(jù),,提供更深入、更智慧的洞察力,。而且,,企業(yè)的競爭優(yōu)勢取決于在商業(yè)環(huán)境中管理和分析所有關鍵數(shù)據(jù)的能力,以及幫助企業(yè)做出最佳決策的洞察力,。
大數(shù)據(jù)分析絕非一時狂熱,,這點毋庸置疑。正如O'Reilly Media創(chuàng)始人Tim O'Reilly所言:“我們正在開創(chuàng)迷人的數(shù)據(jù)驅(qū)動應用新世界,,這是一個任由我們塑造的世界,。”目前,,數(shù)據(jù)科學家已經(jīng)成為獨立的職業(yè),,奮戰(zhàn)在塑造這個商業(yè)新世界的最前線,精通數(shù)據(jù)的專家將成為新時代中的重要成員,。
數(shù)據(jù)科學家必須對數(shù)據(jù)充滿好奇,,擁有專心鉆研的態(tài)度,積極進取并善于批判性思考,。他們具有對業(yè)務流程的深刻理解,,同時融合數(shù)學、統(tǒng)計學,,以及使用Excel、SQL和分析工作臺等技能,。目前,,市場對擁有技術能力及商業(yè)意識的專業(yè)人才需求量巨大。
沒有任何單一技術能夠滿足所有需求,。根據(jù)企業(yè)努力解決的業(yè)務問題,,建立大數(shù)據(jù)分析能力需要人才、流程和各種技術的完美組合,,而最關鍵的是釋放這些數(shù)據(jù)的商業(yè)價值,。這將需要復雜的分析應用,其中包括數(shù)字營銷優(yōu)化,、欺詐偵測和預防,,以及和社交網(wǎng)絡分析等。
Hadoop在大數(shù)據(jù)技術庫中擁有一定價值及重要位置,。 Hadoop既是框架,,更是實現(xiàn)多結構數(shù)據(jù)過濾,、轉(zhuǎn)化及整合的優(yōu)異平臺,類似于未搭載引擎或車身的跑車底盤,。采用這種架構,,Hadoop可以支持迭代及實時數(shù)據(jù)探索和分析,快速發(fā)現(xiàn)新數(shù)據(jù)及數(shù)據(jù)的變化模式,。
成功的關鍵在于能夠整合企業(yè)既有傳統(tǒng)業(yè)務數(shù)據(jù)和新型數(shù)據(jù),。通過開放訪問整個企業(yè)生態(tài)系統(tǒng)并整合各種來源的數(shù)據(jù),企業(yè)可以應用大數(shù)據(jù)分析對客戶進行超級全面的分析,,進一步改善客戶服務和銷售業(yè)績,。