引言:現(xiàn)在越來(lái)越多的公共突發(fā)事件當(dāng)中,尤其是像人為的突發(fā)事件,比如說(shuō)最近像上海的踩踏事件,互聯(lián)網(wǎng)也好,大數(shù)據(jù)也好,能不能發(fā)揮一些正能量的作用?防止這種悲劇的再度重演呢?本期IT名人堂的訪談嘉賓是星環(huán)科技的聯(lián)合創(chuàng)始人孫元浩先生,我們?cè)?015中國(guó)Hadoop技術(shù)峰會(huì)上對(duì)他進(jìn)行了獨(dú)家訪談。
孫元浩認(rèn)為,完全可以用一些新的技術(shù)手段來(lái)檢測(cè)外灘人流的變化,為公安部門(mén)和交通部門(mén)提供一些信息指導(dǎo),比如攝像數(shù)據(jù)充當(dāng)數(shù)據(jù)源來(lái)做一些提前的預(yù)警。通過(guò)地鐵刷卡數(shù)據(jù)、和軌道交通數(shù)據(jù)來(lái)判斷人流量,發(fā)現(xiàn)地鐵數(shù)據(jù)的異常,公安部門(mén)可以直接和交通部門(mén)協(xié)調(diào),從而疏散人流。其次,我們還可以結(jié)合數(shù)據(jù)源運(yùn)營(yíng)商基站的信號(hào)對(duì)數(shù)據(jù)進(jìn)行分析,它們包含了用戶手機(jī)的大致位置,我們能夠迅速的判斷出人群密度以及變化趨勢(shì)。隨著手機(jī)的移動(dòng),根據(jù)基站里手機(jī)的移動(dòng)方向可以預(yù)測(cè)密度的范圍,這些信息綜合起來(lái)可以形成從軌道地下、地面到空中的全方位檢測(cè),這些信息可以迅速反饋給公安,為治安提供導(dǎo)向性的方案。此外,還有一個(gè)車流信息數(shù)據(jù)的采集也是非常重要的,機(jī)動(dòng)車輛經(jīng)過(guò)外灘、乃至全市交通,都會(huì)留下一條記錄,我們可以迅速判斷哪些機(jī)動(dòng)車沒(méi)有離開(kāi),逗留了,從而推斷出這里的車輛可能發(fā)生了擠壓狀況。在這種情況下,我們可以立刻反饋給交通部門(mén),所有的營(yíng)運(yùn)車輛不允許經(jīng)過(guò)外灘,這種方式也能緩解交通情況,所以綜合這些措施也是能夠做到預(yù)防的。
皮皮:在大數(shù)據(jù)的時(shí)代里,數(shù)據(jù)是一個(gè)讓企業(yè)很糾結(jié)的話題,很多人會(huì)認(rèn)為數(shù)據(jù)是死的,人是活的,數(shù)據(jù)挖掘的世界既是一個(gè)地雷陣,同時(shí)又是金礦,那大數(shù)據(jù)到底能給我們帶來(lái)什么呢?如何在海量的數(shù)據(jù)里挖掘出有價(jià)值的數(shù)據(jù)為己所用呢?
在采訪中,孫總為我們概括了大數(shù)據(jù)的三種典型應(yīng)用場(chǎng)景,其用武之地小到個(gè)人、家庭,大到國(guó)家,大數(shù)據(jù)可謂是無(wú)所不能。今天Hadoop主要應(yīng)用場(chǎng)景集中在技術(shù)處理上,但是已經(jīng)有一部分的應(yīng)用開(kāi)始偏向機(jī)器學(xué)習(xí)。星環(huán)科技與合作伙伴也開(kāi)始嘗鮮,利用Hadoop技術(shù)來(lái)處理數(shù)據(jù)的高級(jí)分析,從大數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)。
第一個(gè)典型的應(yīng)用場(chǎng)景是利用大數(shù)據(jù)來(lái)滿足實(shí)時(shí)營(yíng) 銷,比如實(shí)時(shí)采集用戶手機(jī)的位置信息,推送WI-FI的熱點(diǎn),根據(jù)用戶的購(gòu)物歷史,刷卡記錄來(lái)做數(shù)據(jù)分析,推送個(gè)性化的營(yíng) 銷,比如電影票或感興趣的商品等。
第二個(gè)典型的應(yīng)用場(chǎng)景是利用大數(shù)據(jù)來(lái)預(yù)測(cè)用電量,孫總為我們介紹了一個(gè)從事用電數(shù)據(jù)分析的真實(shí)客戶案例。有些省份已經(jīng)布置了很多智能電表,多達(dá)幾千萬(wàn)戶家庭,電表采集密度每天高達(dá)23次,通過(guò)電網(wǎng)傳感器的數(shù)據(jù)可以分析用電量與氣候之間的關(guān)系,能夠幫助電力公司來(lái)初步的預(yù)測(cè)未來(lái)的電力需求量,同時(shí)也能挖掘出企業(yè)用電和GDP增長(zhǎng)之間的關(guān)系。
第三個(gè)典型的應(yīng)用場(chǎng)景是大數(shù)據(jù)應(yīng)用在醫(yī)療領(lǐng)域,有些企業(yè)應(yīng)用大數(shù)據(jù)的分析對(duì)DNA進(jìn)行比對(duì)。過(guò)去對(duì)高齡產(chǎn)婦進(jìn)行檢查,手術(shù)存在風(fēng)險(xiǎn)。現(xiàn)在采用大數(shù)據(jù)的新技術(shù),通過(guò)采集胎兒的DNA序列進(jìn)行比對(duì),一旦發(fā)現(xiàn)胎兒的異常癥狀,就可以采取措施,這種方法與手術(shù)相比,更加準(zhǔn)確,也無(wú)風(fēng)險(xiǎn)的,這種新的技術(shù)隨著大數(shù)據(jù)應(yīng)用越來(lái)越廣泛。
皮皮:60%的Hadoop應(yīng)用是用在SQL統(tǒng)計(jì)領(lǐng)域,最早的Hadoop是用于ETL,包括從數(shù)據(jù)的萃取到轉(zhuǎn)制到最后的加載,而現(xiàn)在我們發(fā)現(xiàn)像FACEBOOK的數(shù)據(jù)倉(cāng)庫(kù)也用到了Hadoop 的數(shù)據(jù)倉(cāng)庫(kù),那么Hadoop與數(shù)據(jù)倉(cāng)庫(kù)究竟有什么樣的關(guān)系呢?
孫總坦言,互聯(lián)網(wǎng)公司從第一天開(kāi)始就是用Hadoop做數(shù)據(jù)倉(cāng)庫(kù),所以Hadoop是互聯(lián)網(wǎng)公司建數(shù)據(jù)的第一選擇,實(shí)際上Hadoop是互聯(lián)網(wǎng)公司的數(shù)據(jù)倉(cāng)庫(kù)。而對(duì)傳統(tǒng)企業(yè)來(lái)講,IT架構(gòu)也發(fā)生了比較大的變化,比如在運(yùn)營(yíng)商、銀行、物流、飛機(jī)等其它行業(yè),Hadoop作為一個(gè)數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充,但是把Hadoop運(yùn)用到這些企業(yè)當(dāng)中的時(shí)候存在一個(gè)顯著的問(wèn)題,傳統(tǒng)的IT架構(gòu),在上面已經(jīng)有大的應(yīng)用了,這些應(yīng)用很多是基于SQL的,應(yīng)用類型與復(fù)雜程度其實(shí)是超過(guò)了互聯(lián)網(wǎng)公司,所以hadoop在進(jìn)入了這個(gè)領(lǐng)域的時(shí)候,有些局限,早期只是做ETL。而隨著hadoop技術(shù)的發(fā)展,像國(guó)外的一些公司包括我們公司都能提供比較完整的SQL支持,這樣使得我們能夠更進(jìn)一步用hadoop來(lái)替代企業(yè)的某些數(shù)據(jù)倉(cāng)庫(kù)。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)像一些大的企業(yè)國(guó)有銀行,動(dòng)不動(dòng)就是幾個(gè)億,維護(hù)擴(kuò)建也是幾個(gè)億的,成本經(jīng)費(fèi)非常昂貴,而Hadoop提供了性價(jià)比非常高的方案,這是企業(yè)在選擇的時(shí)候的一個(gè)考慮的重要因素。
除成本外,Hadoop能夠用來(lái)處理非結(jié)構(gòu)化數(shù)據(jù)。對(duì)銀行而言,像視頻數(shù)據(jù)、票據(jù)數(shù)據(jù),雖然目前對(duì)銀行的價(jià)值不是太高,但是需要一個(gè)存儲(chǔ)機(jī)制來(lái)存放,Hadoop的技術(shù)算法越來(lái)越成熟,數(shù)據(jù)發(fā)掘的工具也越來(lái)越豐富,這就使得企業(yè)在運(yùn)用Hadoop技術(shù)之后能發(fā)現(xiàn)額外的一些增值的東西。
孫總預(yù)計(jì),傳統(tǒng)的企業(yè)IT架構(gòu)慢慢向Hadoop遷移,未來(lái)大概兩三年,企業(yè)的傳統(tǒng)IT架構(gòu)慢慢就會(huì)被hadoop來(lái)取代。Hadoop會(huì)成為企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)的中心,未來(lái)hadoop會(huì)是各個(gè)行業(yè)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。
皮皮:談到大數(shù)據(jù),有3V,Volume(大量)、Velocity(高速)、Variety(多樣),尤其是在物聯(lián)網(wǎng)時(shí)代,像氣象、交通等實(shí)時(shí)數(shù)據(jù)量大,并發(fā)度高,那么物聯(lián)網(wǎng)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有什么區(qū)別?對(duì)企業(yè)的技術(shù)底層架構(gòu)有哪些挑戰(zhàn)?
孫總表示,互聯(lián)網(wǎng)其實(shí)是一個(gè)連接人的一個(gè)網(wǎng)絡(luò),采集的數(shù)據(jù)大部分都是人的行為的數(shù)據(jù),比如說(shuō)人的交易的數(shù)據(jù)、人的上網(wǎng)記錄,而物聯(lián)網(wǎng)采集的數(shù)據(jù)更多是機(jī)器的數(shù)據(jù)。如果比較這兩個(gè)數(shù)據(jù)源的話,我們發(fā)現(xiàn)它的數(shù)據(jù)量是會(huì)差一個(gè)量級(jí)的,全世界人口可能是60億人口,可是有上百億的設(shè)備,這些設(shè)備如果都采集數(shù)據(jù)的話呢,它的量會(huì)比互聯(lián)網(wǎng)的數(shù)據(jù)大一數(shù)量及,所以這個(gè)會(huì)對(duì)未來(lái)的數(shù)據(jù)架構(gòu)產(chǎn)生一個(gè)新的大的挑戰(zhàn)。
第二個(gè)特點(diǎn)是,物聯(lián)網(wǎng)的數(shù)據(jù)并發(fā)度非常高,而且數(shù)據(jù)一旦產(chǎn)生需要立刻被處理。孫總舉了一個(gè)真實(shí)的客戶案例,客戶目前有一千萬(wàn)個(gè)傳感器,每秒鐘一千萬(wàn)個(gè)量級(jí)的數(shù)據(jù)發(fā)送量,可能就已經(jīng)超過(guò)很多互聯(lián)網(wǎng)公司的數(shù)據(jù)量,對(duì)底層架構(gòu)的并發(fā)要求非常高。
第三個(gè)差異化在于互聯(lián)網(wǎng)的數(shù)據(jù)可能是人的行為數(shù)據(jù),主要用來(lái)分析,可以做一些營(yíng) 銷,但是物聯(lián)網(wǎng)數(shù)據(jù)來(lái)說(shuō)更多的是發(fā)現(xiàn)一些自然規(guī)律,當(dāng)然這里面也使用到了大量的技術(shù)運(yùn)算,也會(huì)用到大量的復(fù)雜的物理和數(shù)學(xué)的方法。
皮皮:大數(shù)據(jù)的浪潮風(fēng)靡全球,與Hadoop類似,Spark也火了。在國(guó)外 、Intel、Amazon、Cloudera 等公司率先應(yīng)用并推 廣 Spark 技術(shù),在國(guó)內(nèi)阿 里巴巴、百 度、淘 寶、騰 訊、網(wǎng) 易、星環(huán)等公司敢為人先,Spark 在IT業(yè)界的應(yīng)用可謂星火燎原之勢(shì),未來(lái)Spark能否取代Hadoop?
孫總表示,非常希望(Spark)能夠取代HADOOP,從這個(gè)整個(gè)生態(tài)系統(tǒng)的發(fā)展趨勢(shì)來(lái)看,(Spark)會(huì)慢慢取代(MapReduce),當(dāng)然在星環(huán)科技的產(chǎn)品當(dāng)中已經(jīng)拿(Spark)取代(MapReduce),此外孫總在視頻采訪中還重點(diǎn)為我們講解了Hadoop的分布式計(jì)算框架的架構(gòu),干貨剖多,請(qǐng)大家點(diǎn)擊視頻觀看詳情。
皮皮:我注意到2015年新年剛開(kāi)始,你們公司成功完成了新一輪的數(shù)千萬(wàn)的融資了。那我之前也了解到浪潮與你們強(qiáng)強(qiáng)聯(lián)手,成功搭建了基于Hadoop的大數(shù)據(jù)信息化平臺(tái),能不能從合作伙伴的角度來(lái)和我們簡(jiǎn)單的談一談Hadoop的生態(tài)圈?
孫總坦言,希望能夠促進(jìn)Hadoop真?zhèn)€生態(tài)系統(tǒng)的發(fā)展,目前有三類合作伙伴,一類是行業(yè)應(yīng)用方案解決方案的提供商,比如在交通行業(yè)的合作伙伴,在與我們進(jìn)行深度的合作,能夠高效的處理數(shù)據(jù)或者是銀行的數(shù)據(jù)或者是交通的側(cè)重信息。另外一類合作伙伴是我們認(rèn)證的一些服務(wù)商,對(duì)他進(jìn)行培訓(xùn),他們幫我們進(jìn)行安裝部署運(yùn)維,這些服務(wù)工作,第三個(gè)是他們的產(chǎn)品與我們是有互補(bǔ)性的有可能是硬件廠商,像浪潮。
皮皮:那最后一個(gè)問(wèn)題了,IDC公司預(yù)測(cè),數(shù)據(jù)每天將增長(zhǎng)40%-50%這意味著到2020年總體的數(shù)據(jù)量將會(huì)達(dá)到40PB?那非結(jié)構(gòu)話的數(shù)據(jù)主要來(lái)源我們?nèi)粘5泥]件還有論壇。博客社交網(wǎng)絡(luò),包括我們的POSE系統(tǒng)還有機(jī)器生成的一些數(shù)據(jù)了,那么面對(duì)這些非結(jié)構(gòu)化的數(shù)據(jù),你們提供了一些什么樣的Hadoop解決方案,未來(lái)Hadoop還會(huì)有哪一些新的版本會(huì)發(fā)布?
孫元浩認(rèn)為,未來(lái)很多計(jì)算框架也會(huì)與Hadoop進(jìn)行融合,等到hadoop3.0的時(shí)候,可能會(huì)安全性與性能上得到很大的提升,在資源管理效率上得到比較大的增強(qiáng)。
孫總透露,星環(huán)科技預(yù)計(jì)在2015年發(fā)布2款新產(chǎn)品,第一款產(chǎn)品針對(duì)物聯(lián)網(wǎng)部署的大量傳感器產(chǎn)生的數(shù)據(jù),專注于處理時(shí)序數(shù)據(jù),首先會(huì)進(jìn)入新能源行業(yè)。它能夠?qū)鞲衅鳟a(chǎn)生的大量數(shù)據(jù)進(jìn)行高效處理,在內(nèi)存里存儲(chǔ)數(shù)據(jù)或者是將SSD上的數(shù)據(jù)轉(zhuǎn)成內(nèi)存存儲(chǔ),對(duì)所有的時(shí)序數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析。
第二款產(chǎn)品預(yù)計(jì)會(huì)在2015年下半年推出,這是一款利用Container和Docker來(lái)運(yùn)行Hadoop的現(xiàn)有版本,幫助企業(yè)簡(jiǎn)化Hadoop的部署流程,有了這個(gè)方案以后,企業(yè)在部署Hadoop機(jī)群的時(shí)候,再啟動(dòng)100個(gè)機(jī)群的時(shí)候可能只需要2、3秒就可以啟動(dòng),自動(dòng)進(jìn)行擴(kuò)容,即便機(jī)器發(fā)生故障也能夠自動(dòng)遷移。這樣一來(lái),可以大大降低企業(yè)管理Hadoop的成本、包括維護(hù)的成本,同時(shí)也能夠做非常有效的資源隔離,因?yàn)檫\(yùn)用Container技術(shù)能夠做到CPU內(nèi)存網(wǎng)絡(luò)磁盤(pán)的隔離,隔離性會(huì)比之前更好。如此一來(lái),Hadoop作為企業(yè)的數(shù)據(jù)的計(jì)算,能夠滿足多個(gè)部門(mén)在統(tǒng)一個(gè)數(shù)據(jù)平臺(tái)上進(jìn)行數(shù)據(jù)分析,就可以通過(guò)這種技術(shù)有效的實(shí)現(xiàn)。