定義
大數據與云計算的關系
對于“大數據”(Big data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理。換言之,如果把大數據比作一種產業(yè),那么這種產業(yè)實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規(guī)模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯(lián)網和可擴展的存儲系統(tǒng)。
2技術盤點
HadoopMapReduce
思維模式轉變的催化劑是大量新技術的誕生,它們能夠處理大數據分析所帶來的3個V的挑戰(zhàn)。扎根于開源社區(qū),Hadoop已經是目前大數據平臺中應用率最高的技術,特別是針對諸如文本、社交媒體訂閱以及視頻等非結構化數據。除分布式文件系統(tǒng)之外,伴隨Hadoop一同出現的還有進行大數據集處理MapReduce架構。根據權威報告顯示,許多企業(yè)都開始使用或者評估Hadoop技術來作為其大數據平臺的標準。
NoSQL數據庫
我們生活的時代,相對穩(wěn)定的數據庫市場中還在出現一些新的技術,而且在未來幾年,它們會發(fā)揮作用。事實上,NoSQL數據庫在一個廣義上派系基礎上,其本身就包含了幾種技術??傮w而言,他們關注關系型數據庫引擎的限制,如索引、流媒體和高訪問量的網站
大數據技術盤點
服務。在這些領域,相較關系型數據庫引擎,NoSQL的效率明顯更高。
內存分析
在Gartner公司評選的2012年十大戰(zhàn)略技術中,內存分析在個人消費電子設備以及其他嵌入式設備中的應用將會得到快速的發(fā)展。隨著越來越多的價格低廉的內存用到數據中心中,如何利用這一優(yōu)勢對軟件進行最大限度的優(yōu)化成為關鍵的問題。內存分析以其實時、高性能的特性,成為大數據分析時代下的“新寵兒”。如何讓大數據轉化為最佳的洞察力,也許內存分析就是答案。大數據背景下,用戶以及IT提供商應該將其視為長遠發(fā)展的技術趨勢。
集成設備
隨著數據倉庫設備(Data Warehouse Appliance)的出現,商業(yè)智能以及大數據分析的潛能也被激發(fā)出來,許多企業(yè)將利用數據倉庫新技術的優(yōu)勢提升自身競爭力。集成設備將企業(yè)的數據倉庫硬件軟件整合在一起,提升查詢性能、擴充存儲空間并獲得更多的分析功能,并能夠提供同傳統(tǒng)數據倉庫系統(tǒng)一樣的優(yōu)勢。在大數據時代,集成設備將成為企業(yè)應對數據挑戰(zhàn)的一個重要利器。
3結構
其次,想要系統(tǒng)的認知大數據,必須要全面而細致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這里從大數據的特征定義理解行業(yè)對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發(fā)展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這里分別從云計算、分布式處理技術、存儲技術和感知技術的發(fā)展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。在這里分別從互聯(lián)網的大數據,政府的大數據,企業(yè)的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
特點
大數據分析相比于傳統(tǒng)的數據倉庫應用,具有數據量大、查詢分析復雜等特點?!队嬎銠C學報》刊登的“架構大數據:挑戰(zhàn)、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。第四,只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”——Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度低)。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。
大數據最核心的價值就是在于對于海量數據進行存儲和分析。相比起現有的其他技術而言,大數據的“廉價、迅速、優(yōu)化”這三方面的綜合成本是最優(yōu)的。
5意義及用途
意義
1.變革價值的力量
未來十年,決定中國是不是有大智慧的核心意義標準(那個”思想者”),就是國民幸福。一體現到民生上,通過大數據讓事情變得澄明,看我們在人與人關系上,做得是否比以前更有意義;二體現在生態(tài)上,看我們在天與人關系上,做得是否比以前更有意義??傊?,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。
2.變革經濟的力量
生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。
3.變革組織的力量
隨著具有語義網特征的數據基礎設施和數據資源發(fā)展起來,組織的變革就越來越顯得不可避免。大數據將推動網絡結構產生無組織的組織力量。最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。 大數據之所以成為時代變革力量,在于它通過追隨意義而獲得智慧。
用途
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規(guī)劃建設運營管理的系統(tǒng)工程;大數據科學關注大數據網絡發(fā)展和運營過程中發(fā)現和驗證大數據的規(guī)律及其與自然和社會活動之間的關系。
物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯(lián)網文本和文件;互聯(lián)網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。
有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯(lián)網文本和文件;互聯(lián)網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。
弊端
雖然大數據的擁護者看到了使用大數據的巨大潛力,但也有隱私倡導者擔心,因為越來越多的人開始收集相關數據,無論是他們是否會故意透露這些數據或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公布了一些具體的數字細節(jié)。
分析這些巨大的數據集會使我們的預測能力產生虛假的信心,將導致作出許多重大和有害的錯誤決定。此外,數據被強大的人或機構濫用,自私的操縱議程達到他們想要的結果。