首頁(yè) > 生活頻道 > 生活消費(fèi) > 正文

2015年Hadoop大數(shù)據(jù)技術(shù)有望在多行業(yè)全面開(kāi)花
2015-02-09 13:56:08 來(lái)源：中國(guó)杭州網(wǎng)-杭州時(shí)報(bào)綜合評(píng)論：0 點(diǎn)擊：

　　引言：現(xiàn)在越來(lái)越多的公共突發(fā)事件當(dāng)中，尤其是像人為的突發(fā)事件，比如說(shuō)最近像上海的踩踏事件，互聯(lián)網(wǎng)也好，大數(shù)據(jù)也好，能不能發(fā)揮一些正能量的作用?防止這種悲劇的再度重演呢?本期IT名人堂的訪談嘉賓是星環(huán)科技的聯(lián)合創(chuàng)始人孫元浩先生，我們?cè)?015中國(guó)Hadoop技術(shù)峰會(huì)上對(duì)他進(jìn)行了獨(dú)家訪談。

　　孫元浩認(rèn)為，完全可以用一些新的技術(shù)手段來(lái)檢測(cè)外灘人流的變化，為公安部門(mén)和交通部門(mén)提供一些信息指導(dǎo)，比如攝像數(shù)據(jù)充當(dāng)數(shù)據(jù)源來(lái)做一些提前的預(yù)警。通過(guò)地鐵刷卡數(shù)據(jù)、和軌道交通數(shù)據(jù)來(lái)判斷人流量，發(fā)現(xiàn)地鐵數(shù)據(jù)的異常，公安部門(mén)可以直接和交通部門(mén)協(xié)調(diào)，從而疏散人流。其次，我們還可以結(jié)合數(shù)據(jù)源運(yùn)營(yíng)商基站的信號(hào)對(duì)數(shù)據(jù)進(jìn)行分析，它們包含了用戶手機(jī)的大致位置，我們能夠迅速的判斷出人群密度以及變化趨勢(shì)。隨著手機(jī)的移動(dòng)，根據(jù)基站里手機(jī)的移動(dòng)方向可以預(yù)測(cè)密度的范圍，這些信息綜合起來(lái)可以形成從軌道地下、地面到空中的全方位檢測(cè)，這些信息可以迅速反饋給公安，為治安提供導(dǎo)向性的方案。此外，還有一個(gè)車流信息數(shù)據(jù)的采集也是非常重要的，機(jī)動(dòng)車輛經(jīng)過(guò)外灘、乃至全市交通，都會(huì)留下一條記錄，我們可以迅速判斷哪些機(jī)動(dòng)車沒(méi)有離開(kāi)，逗留了，從而推斷出這里的車輛可能發(fā)生了擠壓狀況。在這種情況下，我們可以立刻反饋給交通部門(mén)，所有的營(yíng)運(yùn)車輛不允許經(jīng)過(guò)外灘，這種方式也能緩解交通情況，所以綜合這些措施也是能夠做到預(yù)防的。

　　皮皮：在大數(shù)據(jù)的時(shí)代里，數(shù)據(jù)是一個(gè)讓企業(yè)很糾結(jié)的話題，很多人會(huì)認(rèn)為數(shù)據(jù)是死的，人是活的，數(shù)據(jù)挖掘的世界既是一個(gè)地雷陣，同時(shí)又是金礦，那大數(shù)據(jù)到底能給我們帶來(lái)什么呢?如何在海量的數(shù)據(jù)里挖掘出有價(jià)值的數(shù)據(jù)為己所用呢?

　　在采訪中，孫總為我們概括了大數(shù)據(jù)的三種典型應(yīng)用場(chǎng)景，其用武之地小到個(gè)人、家庭，大到國(guó)家，大數(shù)據(jù)可謂是無(wú)所不能。今天Hadoop主要應(yīng)用場(chǎng)景集中在技術(shù)處理上，但是已經(jīng)有一部分的應(yīng)用開(kāi)始偏向機(jī)器學(xué)習(xí)。星環(huán)科技與合作伙伴也開(kāi)始嘗鮮，利用Hadoop技術(shù)來(lái)處理數(shù)據(jù)的高級(jí)分析，從大數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)。

　　第一個(gè)典型的應(yīng)用場(chǎng)景是利用大數(shù)據(jù)來(lái)滿足實(shí)時(shí)營(yíng) 銷，比如實(shí)時(shí)采集用戶手機(jī)的位置信息，推送WI-FI的熱點(diǎn)，根據(jù)用戶的購(gòu)物歷史，刷卡記錄來(lái)做數(shù)據(jù)分析，推送個(gè)性化的營(yíng) 銷，比如電影票或感興趣的商品等。

　　第二個(gè)典型的應(yīng)用場(chǎng)景是利用大數(shù)據(jù)來(lái)預(yù)測(cè)用電量，孫總為我們介紹了一個(gè)從事用電數(shù)據(jù)分析的真實(shí)客戶案例。有些省份已經(jīng)布置了很多智能電表，多達(dá)幾千萬(wàn)戶家庭，電表采集密度每天高達(dá)23次，通過(guò)電網(wǎng)傳感器的數(shù)據(jù)可以分析用電量與氣候之間的關(guān)系，能夠幫助電力公司來(lái)初步的預(yù)測(cè)未來(lái)的電力需求量，同時(shí)也能挖掘出企業(yè)用電和GDP增長(zhǎng)之間的關(guān)系。

　　第三個(gè)典型的應(yīng)用場(chǎng)景是大數(shù)據(jù)應(yīng)用在醫(yī)療領(lǐng)域，有些企業(yè)應(yīng)用大數(shù)據(jù)的分析對(duì)DNA進(jìn)行比對(duì)。過(guò)去對(duì)高齡產(chǎn)婦進(jìn)行檢查，手術(shù)存在風(fēng)險(xiǎn)。現(xiàn)在采用大數(shù)據(jù)的新技術(shù)，通過(guò)采集胎兒的DNA序列進(jìn)行比對(duì)，一旦發(fā)現(xiàn)胎兒的異常癥狀，就可以采取措施，這種方法與手術(shù)相比，更加準(zhǔn)確，也無(wú)風(fēng)險(xiǎn)的，這種新的技術(shù)隨著大數(shù)據(jù)應(yīng)用越來(lái)越廣泛。

　　皮皮：60%的Hadoop應(yīng)用是用在SQL統(tǒng)計(jì)領(lǐng)域，最早的Hadoop是用于ETL，包括從數(shù)據(jù)的萃取到轉(zhuǎn)制到最后的加載，而現(xiàn)在我們發(fā)現(xiàn)像FACEBOOK的數(shù)據(jù)倉(cāng)庫(kù)也用到了Hadoop 的數(shù)據(jù)倉(cāng)庫(kù)，那么Hadoop與數(shù)據(jù)倉(cāng)庫(kù)究竟有什么樣的關(guān)系呢?

　　孫總坦言，互聯(lián)網(wǎng)公司從第一天開(kāi)始就是用Hadoop做數(shù)據(jù)倉(cāng)庫(kù)，所以Hadoop是互聯(lián)網(wǎng)公司建數(shù)據(jù)的第一選擇，實(shí)際上Hadoop是互聯(lián)網(wǎng)公司的數(shù)據(jù)倉(cāng)庫(kù)。而對(duì)傳統(tǒng)企業(yè)來(lái)講，IT架構(gòu)也發(fā)生了比較大的變化，比如在運(yùn)營(yíng)商、銀行、物流、飛機(jī)等其它行業(yè)，Hadoop作為一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充，但是把Hadoop運(yùn)用到這些企業(yè)當(dāng)中的時(shí)候存在一個(gè)顯著的問(wèn)題，傳統(tǒng)的IT架構(gòu)，在上面已經(jīng)有大的應(yīng)用了，這些應(yīng)用很多是基于SQL的，應(yīng)用類型與復(fù)雜程度其實(shí)是超過(guò)了互聯(lián)網(wǎng)公司，所以hadoop在進(jìn)入了這個(gè)領(lǐng)域的時(shí)候，有些局限，早期只是做ETL。而隨著hadoop技術(shù)的發(fā)展，像國(guó)外的一些公司包括我們公司都能提供比較完整的SQL支持，這樣使得我們能夠更進(jìn)一步用hadoop來(lái)替代企業(yè)的某些數(shù)據(jù)倉(cāng)庫(kù)。

　　傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)像一些大的企業(yè)國(guó)有銀行，動(dòng)不動(dòng)就是幾個(gè)億，維護(hù)擴(kuò)建也是幾個(gè)億的，成本經(jīng)費(fèi)非常昂貴，而Hadoop提供了性價(jià)比非常高的方案，這是企業(yè)在選擇的時(shí)候的一個(gè)考慮的重要因素。

　　除成本外，Hadoop能夠用來(lái)處理非結(jié)構(gòu)化數(shù)據(jù)。對(duì)銀行而言，像視頻數(shù)據(jù)、票據(jù)數(shù)據(jù)，雖然目前對(duì)銀行的價(jià)值不是太高，但是需要一個(gè)存儲(chǔ)機(jī)制來(lái)存放，Hadoop的技術(shù)算法越來(lái)越成熟，數(shù)據(jù)發(fā)掘的工具也越來(lái)越豐富，這就使得企業(yè)在運(yùn)用Hadoop技術(shù)之后能發(fā)現(xiàn)額外的一些增值的東西。

　　孫總預(yù)計(jì)，傳統(tǒng)的企業(yè)IT架構(gòu)慢慢向Hadoop遷移，未來(lái)大概兩三年，企業(yè)的傳統(tǒng)IT架構(gòu)慢慢就會(huì)被hadoop來(lái)取代。Hadoop會(huì)成為企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)的中心，未來(lái)hadoop會(huì)是各個(gè)行業(yè)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。

　　皮皮：談到大數(shù)據(jù)，有3V，Volume(大量)、Velocity(高速)、Variety(多樣)，尤其是在物聯(lián)網(wǎng)時(shí)代，像氣象、交通等實(shí)時(shí)數(shù)據(jù)量大，并發(fā)度高，那么物聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有什么區(qū)別?對(duì)企業(yè)的技術(shù)底層架構(gòu)有哪些挑戰(zhàn)?

　　孫總表示，互聯(lián)網(wǎng)其實(shí)是一個(gè)連接人的一個(gè)網(wǎng)絡(luò)，采集的數(shù)據(jù)大部分都是人的行為的數(shù)據(jù)，比如說(shuō)人的交易的數(shù)據(jù)、人的上網(wǎng)記錄，而物聯(lián)網(wǎng)采集的數(shù)據(jù)更多是機(jī)器的數(shù)據(jù)。如果比較這兩個(gè)數(shù)據(jù)源的話，我們發(fā)現(xiàn)它的數(shù)據(jù)量是會(huì)差一個(gè)量級(jí)的，全世界人口可能是60億人口，可是有上百億的設(shè)備，這些設(shè)備如果都采集數(shù)據(jù)的話呢，它的量會(huì)比互聯(lián)網(wǎng)的數(shù)據(jù)大一數(shù)量及，所以這個(gè)會(huì)對(duì)未來(lái)的數(shù)據(jù)架構(gòu)產(chǎn)生一個(gè)新的大的挑戰(zhàn)。

　　第二個(gè)特點(diǎn)是，物聯(lián)網(wǎng)的數(shù)據(jù)并發(fā)度非常高，而且數(shù)據(jù)一旦產(chǎn)生需要立刻被處理。孫總舉了一個(gè)真實(shí)的客戶案例，客戶目前有一千萬(wàn)個(gè)傳感器，每秒鐘一千萬(wàn)個(gè)量級(jí)的數(shù)據(jù)發(fā)送量，可能就已經(jīng)超過(guò)很多互聯(lián)網(wǎng)公司的數(shù)據(jù)量，對(duì)底層架構(gòu)的并發(fā)要求非常高。

　　第三個(gè)差異化在于互聯(lián)網(wǎng)的數(shù)據(jù)可能是人的行為數(shù)據(jù)，主要用來(lái)分析，可以做一些營(yíng) 銷，但是物聯(lián)網(wǎng)數(shù)據(jù)來(lái)說(shuō)更多的是發(fā)現(xiàn)一些自然規(guī)律，當(dāng)然這里面也使用到了大量的技術(shù)運(yùn)算，也會(huì)用到大量的復(fù)雜的物理和數(shù)學(xué)的方法。

　　皮皮：大數(shù)據(jù)的浪潮風(fēng)靡全球，與Hadoop類似，Spark也火了。在國(guó)外、Intel、Amazon、Cloudera 等公司率先應(yīng)用并推廣 Spark 技術(shù)，在國(guó)內(nèi)阿里巴巴、百度、淘寶、騰訊、網(wǎng) 易、星環(huán)等公司敢為人先，Spark 在IT業(yè)界的應(yīng)用可謂星火燎原之勢(shì)，未來(lái)Spark能否取代Hadoop?

　　孫總表示，非常希望(Spark)能夠取代HADOOP，從這個(gè)整個(gè)生態(tài)系統(tǒng)的發(fā)展趨勢(shì)來(lái)看，(Spark)會(huì)慢慢取代(MapReduce)，當(dāng)然在星環(huán)科技的產(chǎn)品當(dāng)中已經(jīng)拿(Spark)取代(MapReduce)，此外孫總在視頻采訪中還重點(diǎn)為我們講解了Hadoop的分布式計(jì)算框架的架構(gòu)，干貨剖多，請(qǐng)大家點(diǎn)擊視頻觀看詳情。

　　皮皮：我注意到2015年新年剛開(kāi)始，你們公司成功完成了新一輪的數(shù)千萬(wàn)的融資了。那我之前也了解到浪潮與你們強(qiáng)強(qiáng)聯(lián)手，成功搭建了基于Hadoop的大數(shù)據(jù)信息化平臺(tái)，能不能從合作伙伴的角度來(lái)和我們簡(jiǎn)單的談一談Hadoop的生態(tài)圈?

　　孫總坦言，希望能夠促進(jìn)Hadoop真?zhèn)€生態(tài)系統(tǒng)的發(fā)展，目前有三類合作伙伴，一類是行業(yè)應(yīng)用方案解決方案的提供商，比如在交通行業(yè)的合作伙伴，在與我們進(jìn)行深度的合作，能夠高效的處理數(shù)據(jù)或者是銀行的數(shù)據(jù)或者是交通的側(cè)重信息。另外一類合作伙伴是我們認(rèn)證的一些服務(wù)商，對(duì)他進(jìn)行培訓(xùn)，他們幫我們進(jìn)行安裝部署運(yùn)維，這些服務(wù)工作，第三個(gè)是他們的產(chǎn)品與我們是有互補(bǔ)性的有可能是硬件廠商，像浪潮。

　　皮皮：那最后一個(gè)問(wèn)題了，IDC公司預(yù)測(cè)，數(shù)據(jù)每天將增長(zhǎng)40%-50%這意味著到2020年總體的數(shù)據(jù)量將會(huì)達(dá)到40PB?那非結(jié)構(gòu)話的數(shù)據(jù)主要來(lái)源我們?nèi)粘５泥]件還有論壇。博客社交網(wǎng)絡(luò)，包括我們的POSE系統(tǒng)還有機(jī)器生成的一些數(shù)據(jù)了，那么面對(duì)這些非結(jié)構(gòu)化的數(shù)據(jù)，你們提供了一些什么樣的Hadoop解決方案，未來(lái)Hadoop還會(huì)有哪一些新的版本會(huì)發(fā)布?

　　孫元浩認(rèn)為，未來(lái)很多計(jì)算框架也會(huì)與Hadoop進(jìn)行融合，等到hadoop3.0的時(shí)候，可能會(huì)安全性與性能上得到很大的提升，在資源管理效率上得到比較大的增強(qiáng)。

　　孫總透露，星環(huán)科技預(yù)計(jì)在2015年發(fā)布2款新產(chǎn)品，第一款產(chǎn)品針對(duì)物聯(lián)網(wǎng)部署的大量傳感器產(chǎn)生的數(shù)據(jù)，專注于處理時(shí)序數(shù)據(jù)，首先會(huì)進(jìn)入新能源行業(yè)。它能夠?qū)鞲衅鳟a(chǎn)生的大量數(shù)據(jù)進(jìn)行高效處理，在內(nèi)存里存儲(chǔ)數(shù)據(jù)或者是將SSD上的數(shù)據(jù)轉(zhuǎn)成內(nèi)存存儲(chǔ)，對(duì)所有的時(shí)序數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析。

　　第二款產(chǎn)品預(yù)計(jì)會(huì)在2015年下半年推出，這是一款利用Container和Docker來(lái)運(yùn)行Hadoop的現(xiàn)有版本，幫助企業(yè)簡(jiǎn)化Hadoop的部署流程，有了這個(gè)方案以后，企業(yè)在部署Hadoop機(jī)群的時(shí)候，再啟動(dòng)100個(gè)機(jī)群的時(shí)候可能只需要2、3秒就可以啟動(dòng)，自動(dòng)進(jìn)行擴(kuò)容，即便機(jī)器發(fā)生故障也能夠自動(dòng)遷移。這樣一來(lái)，可以大大降低企業(yè)管理Hadoop的成本、包括維護(hù)的成本，同時(shí)也能夠做非常有效的資源隔離，因?yàn)檫\(yùn)用Container技術(shù)能夠做到CPU內(nèi)存網(wǎng)絡(luò)磁盤(pán)的隔離，隔離性會(huì)比之前更好。如此一來(lái)，Hadoop作為企業(yè)的數(shù)據(jù)的計(jì)算，能夠滿足多個(gè)部門(mén)在統(tǒng)一個(gè)數(shù)據(jù)平臺(tái)上進(jìn)行數(shù)據(jù)分析，就可以通過(guò)這種技術(shù)有效的實(shí)現(xiàn)。

編輯推薦

相關(guān)熱詞搜索：多行業(yè) 數(shù)據(jù) 技術(shù)

上一篇：清真乳品壹清新春誕生打造冷鏈生態(tài)圈
下一篇：“關(guān)注老年健康共享盛世輝煌”

分享到：

2015年Hadoop大數(shù)據(jù)技術(shù)有望在多行業(yè)全面開(kāi)花
2015-02-09 13:56:08 來(lái)源：中國(guó)杭州網(wǎng)-杭州時(shí)報(bào)綜合評(píng)論：0 點(diǎn)擊：

頻道總排行

頻道本月排行

2015年Hadoop大數(shù)據(jù)技術(shù)有望在多行業(yè)全面開(kāi)花 2015-02-09 13:56:08 來(lái)源：中國(guó)杭州網(wǎng)-杭州時(shí)報(bào)綜合 評(píng)論：0 點(diǎn)擊：

延伸閱讀：

頻道總排行

頻道本月排行

2015年Hadoop大數(shù)據(jù)技術(shù)有望在多行業(yè)全面開(kāi)花
2015-02-09 13:56:08 來(lái)源：中國(guó)杭州網(wǎng)-杭州時(shí)報(bào)綜合評(píng)論：0 點(diǎn)擊：