數(shù)據(jù)中心正在成為新時代的“信息電廠”,,成為知識經(jīng)濟的基礎設施,。
過去一年,,“大數(shù)據(jù)”正在成為一個熱門話題,。
半個世紀信息技術(shù)的發(fā)展,主要解決的是云計算中“結(jié)構(gòu)性”數(shù)據(jù)的存儲,、處理與應用,。“結(jié)構(gòu)性”數(shù)據(jù)的特征有如你到銀行去存取款,,銀行的計算機系統(tǒng)記錄著你的名字,,在名字之后是你存取款的數(shù)量、時間,、類型等信息,。這些數(shù)據(jù)的特征是“邏輯性強”,每個“因”都有“果”,。
然而現(xiàn)實社會中大量數(shù)據(jù)事實上沒有“顯現(xiàn)性”的因果關(guān)系,如一個時刻的交通堵塞、天氣狀態(tài),、人的狀態(tài)(心理與物理)等,,它的特征是隨時、海量與彈性,,如一個突變天氣分析包含會有幾百個PB(Petabyte, 1Petabyte=1024TB)數(shù)據(jù),。而一個社會事件如喬布斯去世瞬間所產(chǎn)生在互聯(lián)網(wǎng)上的數(shù)據(jù)(微博、紀念,、文章,、視頻等)也是突然暴發(fā)出來。
傳統(tǒng)的計算機設計與軟件都是以解決“結(jié)構(gòu)性”數(shù)據(jù)為主,。對這一類新型的“非結(jié)構(gòu)”要求一種新的計算架構(gòu),。互聯(lián)網(wǎng)時代,,尤其是社交網(wǎng)絡,、電子商務與移動通訊把人類社會帶入一個以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代,它就是“大數(shù)據(jù)(Big Data)”時代,。
一個大規(guī)模生產(chǎn),、分享、應用數(shù)據(jù)的時代正在開啟,,我們每個人都成為了數(shù)據(jù)的創(chuàng)造者和使用者,,微博、社交網(wǎng)絡都是最好的例子,。
工業(yè)革命以后,,書籍等以文字為載體的知識大約每十年可以翻一番;1970年以后,知識大約每三年就可以翻一番;如今,,全球信息總量每兩年就可以翻一番;2010年互聯(lián)網(wǎng)的數(shù)據(jù)量,,比之前所有年份的總和還要多。現(xiàn)在,,人類每天可以產(chǎn)生數(shù)以PB的數(shù)據(jù),,從日志、微博,、分享照片,、傳送視頻,多種格式的數(shù)據(jù)實時,、不斷地更新,。在醫(yī)療衛(wèi)生、地理信息,、電子商務,、影視娛樂等行業(yè),,每天也都在創(chuàng)造著大量的數(shù)據(jù)。
數(shù)據(jù)正在成為從工業(yè)經(jīng)濟向知識經(jīng)濟轉(zhuǎn)變的重要特征,,成為新時代最關(guān)鍵的生產(chǎn)要素和產(chǎn)品形態(tài),。
代表著大數(shù)據(jù)時代的如Apple、Facebook,、Amazon等公司正成為這場變革的推動力量,。同時新企業(yè)也層出不窮,比如2007年才成立的 Dropbox公司,,創(chuàng)始人不到27歲,,估值已經(jīng)超過40億美元,這是一家提供文件備份及共享服務的公司,,允許用戶在不同平臺和設備之間同步并共享文件,,Dropbox用戶數(shù)量超過2500萬,每天存儲的文件數(shù)量2億多個,,蘋果公司曾出價8億美元想收購它未成功,。
值得一提的是,這家公司最早使用的也是Amazon的S3云計算平臺,,得以低成本迅速起步,。Amazon云計算數(shù)據(jù)存儲服務,原來只是為了利用閑置服務器資源,,現(xiàn)在一年可以帶來近10億美元收入,,并且供不應求。今年初,,Amazon S3云存儲服務存儲文件是2620億份,,這個數(shù)字最近變成了5660億份,翻了1倍還多,。目前Amazon稱自己的S3數(shù)據(jù)存儲服務,,擔心的已經(jīng)不是數(shù)據(jù)的存儲成本,而是更加重要的數(shù)據(jù)處理的問題,。
云計算中的大數(shù)據(jù)有幾個核心要素,,如數(shù)據(jù)在云端的集合與分享、個人數(shù)據(jù)的無縫連接(隨時,、隨地,、同步)以及數(shù)據(jù)的跟蹤分析和挖掘。
源自雅虎的Hadoop這樣大數(shù)據(jù)系統(tǒng)越來越重要,,作為開源的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),,Hadoop主要面向存儲和處理成百上千TB直至PB級別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù),。Hadoop提供的MapReduce能將大數(shù)據(jù)問題分解成多個子問題,,將它們分配到成百上千個處理節(jié)點之上,,再將結(jié)果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結(jié)果,。
Hadoop已經(jīng)成為AOL,、Facebook、Twitter和Netflix這些公司大數(shù)據(jù)分析的主要解決方案,。比如像Facebook一天的數(shù)據(jù)要比很多大公司一年的數(shù)據(jù)還要多,他們通過Hadoop收集和存儲每天生成的數(shù)百萬的文件,,使用開源Apache Hive數(shù)據(jù)倉庫工具集中對這些數(shù)據(jù)進行分析,。
Opera Solutions這樣的創(chuàng)新公司提供的服務更加引人注目:客戶將數(shù)據(jù)上傳到Opera平臺,Opera就會根據(jù)用戶數(shù)據(jù)池里的相關(guān)“信號”進行分析,,根據(jù)每個客戶的個性化需求,,Opera雇傭各行業(yè)的專家來幫助他們進行數(shù)據(jù)分析,Opera Solutions的年營業(yè)額已經(jīng)超過1億美元,。
新的創(chuàng)業(yè)公司像MapR,、Zettaset、Cloudera,、HStreaming這些和Hadoop相關(guān)的大數(shù)據(jù)公司,,在資本市場倍受青睞。它的快速成長將會成為下一個改變信息技術(shù)的力量,。
大數(shù)據(jù)為云計算大規(guī)模與分布式的計算能力提供了應用的空間,,解決了傳統(tǒng)計算機無法解決的問題。同時這個領(lǐng)域的計算標準與軟件均剛剛起步,,為全世界新型軟,、硬件及應用創(chuàng)新提供了前所未有的機會。
海量的數(shù)據(jù)需要足夠存儲來容納它,,快速,、低廉價格、綠色的數(shù)據(jù)中心部署成為關(guān)鍵,。最近一年多來,,谷歌、Facebook,、Rackspace等公司都在紛紛建設新一代的數(shù)據(jù)中心,,大部分都采用更高效、節(jié)能,、定制化的云服務器,,用于大數(shù)據(jù)存儲、挖掘和云計算業(yè)務,。
數(shù)據(jù)中心正在成為新時代的“信息電廠”,,成為知識經(jīng)濟的基礎設施,。從海量數(shù)據(jù)中提取有價值的信息,數(shù)據(jù)分析使數(shù)據(jù)變得更有意義,,并將影響政府,、金融、零售,、娛樂,、媒體等各個領(lǐng)域,帶來革命性的變化,。以投資Facebook而著名的風險投資機構(gòu)Accel Partners 表示:“大數(shù)據(jù)是信息技術(shù)未來發(fā)展的戰(zhàn)略走向,,將催生下一代價值數(shù)萬億美元的軟件企業(yè)?!?/span>
大數(shù)據(jù)將豐富我們對世界的認識,。從定量、結(jié)構(gòu)的世界,,到不確定,、非結(jié)構(gòu)的世界。這個轉(zhuǎn)變,,使我們得以了解真實信息,,提高決策水平,當社會對自然的數(shù)據(jù)有較為完善,、隨時的分析能力時,,我們對事件的把握及預測能力便增強。以云計算為基礎的信息存儲,、分享和挖掘手段為知識生產(chǎn)提供了工具,,通過對大數(shù)據(jù)分析、預測會使得決策更為精準,,這對現(xiàn)階段的中國尤其重要,。
中國有著龐大的人群和應用市場,復雜性高,、充滿變化,,如此龐大的用戶群體,使中國成為世界上最大數(shù)據(jù)的國家,。解決這種由大規(guī)模數(shù)據(jù)引起的問題,,探索以大數(shù)據(jù)為基礎的解決方案,是中國產(chǎn)業(yè)升級,,效率提高的重要手段,。
“數(shù)據(jù)銀行”概念逐漸變?yōu)閼玫脑圏c。將有公司把我們產(chǎn)生的數(shù)據(jù)如金錢資產(chǎn)一樣,放在“數(shù)據(jù)銀行”中儲存起來,。
企業(yè)計算在大數(shù)據(jù)環(huán)境中可以將已有數(shù)據(jù)和文檔向云計算環(huán)境遷移,,加快云環(huán)境下的數(shù)據(jù)管理、數(shù)據(jù)挖掘等軟件應用,,進行商業(yè)模式探索和數(shù)字化決策,。政府可以通過海量數(shù)據(jù)的存儲、分享,,進行分析和應用,,通過數(shù)據(jù)共享和業(yè)務協(xié)同,提升辦公智能和決策效率,,解決城市交通,、人口管理、公共安全,、醫(yī)療衛(wèi)生等諸多難題。
數(shù)據(jù)不僅代表著生產(chǎn)力,,還將成為重要的資產(chǎn),,或許在將來,我們留給下一代的資產(chǎn),,不是銀行里有多少存款,,而是信息資產(chǎn);也許10年、15年之后,,會有國家的數(shù)據(jù)銀行,,相對今天的財富資產(chǎn),里面保存的是我們的信息資產(chǎn),。
大數(shù)據(jù)的各種基礎及應用軟件,、硬件產(chǎn)品會逐步推出,而這方面中國創(chuàng)業(yè)型企業(yè)與硅谷距離也在縮短,。今年底我們投資的北京超云計算機公司,,將在北京亦莊與硅谷一家企業(yè)同時推出世界首臺解決大數(shù)據(jù)問題的“Hadoop”服務器。
“云家電”將成為應用熱點,。大規(guī)模,、海量的“云數(shù)據(jù)”中心建設會成為全球與中國下輪基礎設施投資重點。
無論云計算還是大數(shù)據(jù)技術(shù)與應用,,今天還是早期發(fā)展階段,,相當于上世紀80年代初的個人計算機。我們已看到它廣闊的應用前景及改變世界經(jīng)濟的力量,。但是我們?nèi)詿o法準確地預知什么樣的商業(yè)模式與什么樣的企業(yè),、企業(yè)家會取得最終的成功。探索、學習與試錯是進入這個新世界之門的唯一鑰匙,。