
大數據時代

最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!?“大數據”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯網和信息行業(yè)的發(fā)展而引起人們關注。
現在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優(yōu)勢,它占領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發(fā)展的領域正在協助企業(yè)不斷地發(fā)展新業(yè)務,創(chuàng)新運營模式。有了大數據這個概念,對于消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優(yōu)化。
“大數據”在互聯網行業(yè)指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網絡行為數據。這些數據的規(guī)模是如此龐大,以至于不能用G或T來衡量。
大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規(guī)模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享。然而,即使是人們每天創(chuàng)造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創(chuàng)造出的關于人們自身的數字信息量。
這樣的趨勢會持續(xù)下去。我們現在還處于所謂“物聯網”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通。科技的進步已經使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業(yè)投資也增長了整整50%,達到了4000億美元。
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。
數據價值
大數據時代,什么最貴?
十年前,葛大爺曾說過,“21世紀什么最貴?”——“人才”,深以為然。只是,十年后的今天,大數據時代也帶來了身價不斷翻番的各種數據。由于急速拓展的網絡帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。
一分鐘內,微博推特上新發(fā)的數據量超過10萬;社交網絡“臉譜”的瀏覽量超過600萬……
這些龐大數字,意味著什么?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平臺當作抒情或者發(fā)議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的“數據財富”,先人一步用其預判市場走勢,而且取得了不俗的收益。
現在的社會是一個高速發(fā)展的社會,科技發(fā)達,信息流通,人們之間的交流越來越密切,生活也越來越方便,大數據就是這個高科技時代的產物。
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。[2]
在現今的社會,大數據的應用越來越彰顯他的優(yōu)勢,它占領的領域也越來越大,電子商務、O2O、物流配送等,各種利用大數據進行發(fā)展的領域正在協助企業(yè)不斷地發(fā)展新業(yè)務,創(chuàng)新運營模式。有了大數據這個概念,對于消費者行為的判斷,產品銷售量的預測,精確的營銷范圍以及存貨的補給已經得到全面的改善與優(yōu)化。
“大數據”在互聯網行業(yè)指的是這樣一種現象:互聯網公司在日常運營中生成、累積的用戶網絡行為數據。這些數據的規(guī)模是如此龐大,以至于不能用G或T來衡量。
大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……
截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規(guī)模將達到今天的44倍。 每一天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享。然而,即使是人們每天創(chuàng)造的全部信息——包括語音通話、電子郵件和信息在內的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創(chuàng)造出的關于人們自身的數字信息量。
這樣的趨勢會持續(xù)下去。我們現在還處于所謂“物聯網”的最初級階段,而隨著技術成熟,我們的設備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通。科技的進步已經使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務之上的商業(yè)投資也增長了整整50%,達到了4000億美元。
大數據的精髓
大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機采樣;是大體方向,而不是精確制導;是相關關系,而不是因果關系。
A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣(隨機采樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);
B.不是精確性,而是混雜性:研究數據如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴大,對精確度的癡迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發(fā)展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;
C.不是因果關系,而是相關關系:我們不再熱衷于找因果關系,尋找因果關系是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系;相關關系也許不能準確地告訴我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。
數據價值
大數據時代,什么最貴?
十年前,葛大爺曾說過,“21世紀什么最貴?”——“人才”,深以為然。只是,十年后的今天,大數據時代也帶來了身價不斷翻番的各種數據。由于急速拓展的網絡帶寬以及各種穿戴設備所帶來的大量數據,數據的增長從未停歇,甚至呈井噴式增長。
一分鐘內,微博推特上新發(fā)的數據量超過10萬;社交網絡“臉譜”的瀏覽量超過600萬……
這些龐大數字,意味著什么?
它意味著,一種全新的致富手段也許就擺在面前,它的價值堪比石油和黃金。
事實上,當你仍然在把微博等社交平臺當作抒情或者發(fā)議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的“數據財富”,先人一步用其預判市場走勢,而且取得了不俗的收益。
上一篇:大數據分析
下一篇:大數據培訓