新聞中心
小編認為,大數(shù)據(jù)與云計算已經(jīng)在野蠻的演變?yōu)橐粋€整體。

成都創(chuàng)新互聯(lián)專注于企業(yè)成都營銷網(wǎng)站建設、網(wǎng)站重做改版、阜城網(wǎng)站定制設計、自適應品牌網(wǎng)站建設、H5響應式網(wǎng)站、商城系統(tǒng)網(wǎng)站開發(fā)、集團公司官網(wǎng)建設、成都外貿網(wǎng)站建設公司、高端網(wǎng)站制作、響應式網(wǎng)頁設計等建站業(yè)務,價格優(yōu)惠性價比高,為阜城等各大城市提供網(wǎng)站開發(fā)制作服務。
隨著移動電商、社交網(wǎng)絡、智能硬件的強勢加入,通過各自數(shù)據(jù)規(guī)模與維度的指數(shù)級增長,除了催生數(shù)據(jù)生態(tài)系統(tǒng)各個環(huán)節(jié)的技術模式與標準變化,還催生更大的市場和利潤空間。而這些TB至PB級的海量數(shù)據(jù)在存儲、處理、分析、檢索技術和成本上對很多中小型企業(yè)面臨著很高的門檻。在這些不同環(huán)節(jié)的商業(yè)需求上正在孵化新的急速模式和方法以實現(xiàn)新的商業(yè)模式。
所以,在數(shù)據(jù)處理方面Hadoop無疑是更多企業(yè)的首選。這脫胎于GoogleMapReduce的大數(shù)據(jù)分布式處理架構,為解決搜索引擎海量數(shù)據(jù)的處理和存儲問題而驕傲的誕生,許多的企業(yè)也圍繞這個架構產(chǎn)生:今天的主角UDDP也是如此。
UDDP能夠幫助用戶輕松、快速地處理TB甚至PB級的海量數(shù)據(jù)。主要應用于數(shù)字營銷、數(shù)據(jù)分析、商業(yè)智能、科學模擬等領域。同時也是基于 Hadoop 開源框架開發(fā),包括 MapReduce 和 Hive。記者通過對UCloud分布式數(shù)據(jù)分析平臺負責人 王冬冬的專訪,從對UDDP技術應用層面的剖析,到其在市場中的競爭優(yōu)勢以及相關的應用場景,讓用戶對UDDP有一個新的了解與參考。
王冬冬,ucloud分布式數(shù)據(jù)分析平臺負責人,先后分別在盛大和騰訊工作,2012年初離開騰訊加入ucloud。強邏輯性思維方式,熱愛互聯(lián)網(wǎng)。
以下是記者與王冬冬經(jīng)理的專訪錄音整理:
記者:UCloud憑借其混合云產(chǎn)品和云內存儲產(chǎn)品UMem入圍2014年度互聯(lián)網(wǎng)最佳技術創(chuàng)新獎,UMem的自主研發(fā)Key-Value內存存儲系統(tǒng)與常見開源的Kye-Value分布式存儲系統(tǒng)有哪些不同?性能和兼容性如何?
王冬冬:UMem是我們自研的一個Key-Value內存存儲,它最大的一個特點是分布式設計的,它在容量和性能上可以突破單機的一些限制,同時UMem還做了主從熱備,主機故障的時候,它可以自動切換到從機,比其他單純的Key-Value存儲更加可靠。
UMem可以兼容絕大部分的memcached和Redis的協(xié)議,用戶應用幾乎是可以無縫的接入進來。性能也是根據(jù)用戶申請的容量來控制,我們現(xiàn)在目前是每1G大概支持4000QPS,申請的容量越大,你可以獲取的能力就會越大。
記者:前兩段時間SQLite剛發(fā)布了2.8.7版本,比上版本性能提升了50%以上,有沒有考慮應用到UDDP中?
王冬冬:關于您說的這塊,我們公司有另外一個產(chǎn)品對應,叫UDB。SQLite它是一個非常非常優(yōu)秀的輕量級的關系型數(shù)據(jù)庫,它本身是沒有服務器進程,存儲在單一文件中,支持跨平臺性。但是SQLite的缺點其實也是非常明顯,它不支持很高的并發(fā)量和很大的數(shù)據(jù)量,數(shù)據(jù)維護也是一個非常困難的事情,對SQL的標準的支持也是不夠全,缺少用戶管理,所以在一些很小的中小型站點上應用可能會比較合適,但非常不適合大規(guī)模的應用。
目前我們本身的UDB這個產(chǎn)品,也會推出一些比較小的UDB去適應比較小的中小型站點,暫時不考慮把sqlite應用到我們的udb產(chǎn)品中。
記者:了解,UCloud近期推出旗下大數(shù)據(jù)產(chǎn)品UDDP,基于Hadoop開源框架開發(fā),主要應用在哪些場景?有無自主研發(fā)或創(chuàng)新優(yōu)化,和其他分布式數(shù)據(jù)處理產(chǎn)品的優(yōu)勢在哪里?
王冬冬:Hadoop最初的誕生是谷歌發(fā)布的gfs、mapreduce兩大論文的實現(xiàn)。本質它是一個分布式計算平臺,在當時是為了解決搜索引擎海量數(shù)據(jù)的處理和存儲問題,所以在搜索這個場景是非常合適的。
隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展,Hadoop現(xiàn)在已經(jīng)廣泛應用于各個行業(yè),比如說一些在線廣告、在線旅游,或者一些電子商務等等。包括一些傳統(tǒng)行業(yè),也因為互聯(lián)網(wǎng)的滲透,開始慢慢使用起來,比如說一些商場零售、圖像處理、醫(yī)療保健等。
我們大數(shù)據(jù)產(chǎn)品UDDP是基于Hadoop的生態(tài)系統(tǒng),采用的是多用戶共享集群的一個方式,在權限、安全方面做了很多的工作,包括從底層的網(wǎng)絡就進行了用戶的隔離,在這方面做得很多。
另外在任務調度、資源管理方面,我們也加了一層的設計,可以靈活的調度用戶提交過來的任務,對它進行優(yōu)化。同時我們也結合了我們自身的云計算平臺,在保留用戶原來習慣的情況下,方便用戶進行海量數(shù)據(jù)存儲計算,而不需要考慮集群的維護,降低用戶的使用經(jīng)濟成本和時間成本。
記者:UDDP提供了MapReduce 和 Hive,一般來說MapReduce從時間,數(shù)據(jù)量,計算量上來看,都會優(yōu)于Hive。而Hive的開發(fā)和維護成本卻遠低于MapReduce,對于用戶不同場景的需求,在轉換的過程當中UCloud有提供哪些解決方案?
王冬冬:我們在幫助用戶應用一些大數(shù)據(jù)的時候,也的確發(fā)現(xiàn)了一些用戶對mapreduce使用感覺比較復雜,包括對Hive使用,也會覺得比較復雜。我們已經(jīng)在針對性的開發(fā)一些周邊的工具,比如說數(shù)據(jù)源同步、MapReduce算法模塊、數(shù)據(jù)流水線等一些工具,從MapReduce場景轉換到Hive這樣的工具,我們后續(xù)也會有可能提供。
通過這些周邊工具的開發(fā),能夠很方便地讓原來不太了解的用戶快速入門,在整個數(shù)據(jù)產(chǎn)生到最終的應用的過程,快速達成目標。同時我們也會和第三方的一些公司、社區(qū)進行合作,在一個良好的生態(tài)下為用戶提供這些服務。
記者:咱們還是在兩者之間開發(fā)一些周邊的工具,提供給用戶,應該說是簡化他們的一個操作流程。然后我之前也看到了您演講的PPT里面UDDP好像整合了HBase,能介紹一下整體的設計是怎樣的?
王冬冬:UDDP在整合HBase,現(xiàn)在已經(jīng)在公司內部進行測試,預計很快會對外發(fā)布。UDDP整體的系統(tǒng),它的底層存儲目前是用HDFS,后續(xù)會和我們自己的存儲產(chǎn)品進行整合。在存儲之上,我們會提供兩套的分析框架,一個是MapReduce,一個是Spark。
另外同時我們也會提供一些HBase這種列存儲,在MapReduce和Spark之上會衍生各種的工具,比如說現(xiàn)有的一些Spark SQL……,整個集群還會有專門的安全和權限管理系統(tǒng),用于用戶權限的管理和數(shù)據(jù)的安全。同時還會有任務調度、監(jiān)控,去調度優(yōu)化用戶提交的任務,保證集群在一個非常好的狀態(tài)下去運行。
記者:在大數(shù)據(jù)環(huán)境下進行數(shù)據(jù)分析,更多人都會選擇Spark。剛才您也說了,會集成Spark,專門做一些分析。大家都知道它是基于內存上面進行運算的,這樣的話可能處理的數(shù)據(jù)會有限。在這方面,你們是如何解決這個問題的?
王冬冬:我們對比了MapReduce和Spark,一方面Spark比MapReduce更通用了,因為Spark提供了比MapReduce更多的數(shù)據(jù)集的一個操作類型,比如說MapReduce只是提供Map和Reduce這兩種操作,Spark還會提供一些filter,union,join,sort等等操作,這會讓編程模型更加靈活。
另外一方面,MapReduce在一些反復迭代的場景比較慢,它慢的原因就是MapReduce每次處理它的中間數(shù)據(jù),要直接寫在HDFS上面。那么Spark是建立在一個統(tǒng)一抽象的RDD上面,中間數(shù)據(jù)是寫在內存當中,在整個迭代運算中會非常有優(yōu)勢,非常有效率。
剛才您提到的內存有限,實際上加載到內存中的這個數(shù)據(jù),只是整體數(shù)據(jù)的一個子集,是它運行中間的數(shù)據(jù)或者是一些Cache的數(shù)據(jù),并不一定需要同等規(guī)模的內存來支持。Spark在一些細節(jié)的地方,就是說如果你內存不夠的情況下,也能夠很好地處理。
記者:在傳統(tǒng)的BI對于數(shù)據(jù)倉庫的一般規(guī)模結構化,數(shù)據(jù)進行處理分析和提供商業(yè)化商業(yè)智能的時候,都是基于Hadoop。那么就是說基于Hadoop上面UDDP的戰(zhàn)略級別的數(shù)據(jù)是怎么樣的一個形式?
王冬冬:從目前數(shù)據(jù)類型的分布來看,全球不斷產(chǎn)生的新數(shù)據(jù),非結構化的數(shù)據(jù)增長是遠遠超過了結構化數(shù)據(jù)的,而且這個差距會越來越大。那么傳統(tǒng)的數(shù)據(jù)倉庫很難解決這種非結構化數(shù)據(jù)的一個分析,在這方面是我們基于Hadoop的UDDP它所擅長的。
當然結構化的數(shù)據(jù)需求是一直存在的,傳統(tǒng)BI之所以依賴這個數(shù)據(jù)倉庫,本身是整體的機制已經(jīng)非常穩(wěn)定和成熟。UDDP在針對結構化數(shù)據(jù),一方面會和我們內部的產(chǎn)品進行結合,來提供服務,比如說上面提到的關系型數(shù)據(jù)庫產(chǎn)品UDB,另一方面,UDDP也會把數(shù)據(jù)流整個的生態(tài)給建立起來,會提供一些數(shù)據(jù)流的工具,提供數(shù)據(jù)對接的接口,這樣讓用戶可以享受大數(shù)據(jù)平臺海量分析能力的同時,不改變太多用戶的使用習慣,是這樣的方式來解決。
記者:剛才您說UCloud上面也有一個叫源數(shù)據(jù),就是UDB,它跟UDDP之間會不會有一些整合進去?
王冬冬:會得,這個一定會,比如說我們數(shù)據(jù)流的一個工具,我們當前的一些用戶的數(shù)據(jù),是一個非常海量的非結構化數(shù)據(jù),但是對于一些數(shù)據(jù)的運營人員,他們來看這個數(shù)據(jù)的時候,還是希望以表格、曲線圖這樣的方式來看。這部分數(shù)據(jù)分析過后,可以去落地到udb里面,然后它的一個報表整體可以基于udb繼續(xù)去開發(fā),去展示。
記者:剛才咱們也說了,UDDP集群是基于Hadoop集群上面做的。在這基礎上有哪些優(yōu)化和創(chuàng)新?它們之間的關系是什么樣的?
王冬冬:UDDP集群基于Hadoop,是在Hadoop這個生態(tài)圈內,會把Hadoop成熟的一些思想、方法、工具集成進來,同時也會和我們云計算進行結合,提供彈性,更低成本的海量分析服務。另外,我們還會深入到用戶場景中,把很多原來在每個用戶都需要處理的繁瑣的數(shù)據(jù)流程,通過圖形化,工具化提供給用戶,讓用戶基本上只需要定義好數(shù)據(jù)輸入、輸出,就能得到想要的數(shù)據(jù)。通過建立大數(shù)據(jù)的生態(tài)圈,也讓用戶可以共享更多人已經(jīng)實踐了的經(jīng)驗。
記者:主要還是提供一些比較簡潔明了的,圖形化的一些界面給用戶去使用。
王冬冬:對。
記者:在大數(shù)據(jù)爆發(fā)的時代,傳統(tǒng)行業(yè)如果通過大數(shù)據(jù)去提升它的競爭力,UCloud這塊的一些案例您能分享一些嗎?主要是基于那些方面?
王冬冬:其實在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)驅動業(yè)務這樣的一個模型是比較成熟的。比如說我們現(xiàn)在的游戲都是通過數(shù)據(jù)分析,去分析新用戶的增長,轉換率等等,它可以直接幫助我們改進游戲的一個設計和運營。但是傳統(tǒng)行業(yè)在這方面運用其實是比較少的,他們內部雖然沉淀了很多的基礎數(shù)據(jù),但這些數(shù)據(jù)是靜止的,是不流動的。
我們通過大數(shù)據(jù)的應用,讓這些數(shù)據(jù)可以流動起來,可以和自身的業(yè)務結合起來,然后去推動業(yè)務的增長。比如我們看現(xiàn)在的一些零售行業(yè),就是非常棒的例子,通過收集用戶的信息,通過用戶的反饋,去改進他們整個的零售運營。
那么UCloud大數(shù)據(jù)產(chǎn)品剛發(fā)布不久,已經(jīng)和一些在線教育、金融還有視頻的用戶在接入。
記者:我了解咱們UCloud好像大部分都是基于游戲公司,以后的方向可能會跟在線教育這一塊,會提供更多的支持?
王冬冬:在線教育是我們非常重視的一塊,以后會提供更多支持。
記者:剛剛我們說的可能就是基于UCloud層面,那么在UDDP平臺上,它在傳統(tǒng)行業(yè)是如何應用的?比如您剛才也說的在線教育可能不算傳統(tǒng)行業(yè),我們更多的是醫(yī)療、交通監(jiān)控等,傳統(tǒng)行業(yè)其實本身是有很多數(shù)據(jù)的,這些數(shù)據(jù)如果我要遷移到UDDP上面,我們這邊有提供一些什么樣的方式或接口?
王冬冬:對于傳統(tǒng)行業(yè),其實他們本身的大數(shù)據(jù)技術的積累是比較薄弱的。我們目前主要提供的還是一個數(shù)據(jù)分析的平臺,針對于這些不同的用戶,我們還是有一些周邊的工具支持,比如說用戶需要遷移,我們會提供一些遷移工具,比如他原來的數(shù)據(jù)放在Oracle,我們會提供一些Oracle遷移到我們的分析集群上的數(shù)據(jù);如果他們原來是文本,或者是一些其他的關系數(shù)據(jù)庫或者是另外其他的介質,那么也會提供相應的一些工具來支持到,用戶在遷移數(shù)據(jù)的時候成本就很低。
另外一個方面,其實真正在大數(shù)據(jù)應用,我們幫助用戶更多的實際上是用戶去了解這個大數(shù)據(jù),去真正能夠感受到大數(shù)據(jù)到底能幫助他們做哪些事情,同時我們也會對他們的技術人員提供技術指導,讓他們能夠很快地去適應在大數(shù)據(jù)分析的場景下,在我們的大數(shù)據(jù)平臺上面怎么把數(shù)據(jù)整體給運轉起來,得到他們想要的數(shù)據(jù)。
記者:剛才你說到Oracle數(shù)據(jù)庫,UDDP現(xiàn)在好像我看到只支持兩款數(shù)據(jù)庫,分別是MySQL和mangoDB,后期有其他更多的嗎?
王冬冬:我們現(xiàn)在其實提供產(chǎn)品主要的一個依據(jù),一方面是用戶的使用非常多,一旦用戶達到一定規(guī)模的時候,我們就會在這上面去提供相應的一個產(chǎn)品,比如說Oracle,其實我們在內部也會討論。
記者:Oracle可能就是對于一些傳統(tǒng)行業(yè)用的比較多,大量的,這是我個人的理解。
王冬冬:對。
記者:在數(shù)據(jù)存儲上我大致了解幾類,像通常的key-value數(shù)據(jù)庫,文檔型的數(shù)據(jù)庫mongodb,列式分布式數(shù)據(jù)庫HBase等等,對于不同的業(yè)務,在UDDP上面是如何考量和選擇的?
王冬冬:我們提供的存儲還是根據(jù)用戶實際的應用場景來看,比如說mangoDB在游戲這個行業(yè)里面,應用的是比較多。那么當我們主打的一個行業(yè)是游戲行業(yè)的時候,我們會優(yōu)先考慮把mangoDB給提供上去。
記者:像咱們的一些潛在用戶,就是可能他對咱們的產(chǎn)品不是很了解,因為之前基本都是使用過咱們產(chǎn)品的用戶,他才會給反饋。對于一些潛在用戶,有可能沒有用到您們提供的這兩款數(shù)據(jù)庫,結果是會造成這些用戶的流失。
王冬冬:我們一方面其實就是說讓用戶怎么來知道他應該選擇哪一種產(chǎn)品,對于這一塊,一方面我們在我們的官方網(wǎng)站上也會提供一些成熟的案例,包括一些整體的架構是怎么樣搭起來,哪些產(chǎn)品在這個設計里面是非常好的。另外一方面,我們也會有架構師去了解你的具體應用場景,然后向你提供專業(yè)的幫助,還有,我們也會和一些第三方合作,拓展更多能夠幫助到用戶的咨詢渠道。
記者:在Hadoop上面數(shù)據(jù)同步的設計是相當重要的,通常需要異構數(shù)據(jù)源的同步,像數(shù)據(jù)文件到關系型數(shù)據(jù)庫,或者數(shù)據(jù)文件到分布式數(shù)據(jù)庫,關系型數(shù)據(jù)庫到分布式數(shù)據(jù)庫等等,這方面你們是如何做的?
王冬冬:任務調度配合數(shù)據(jù)同步工具來做,每一個數(shù)據(jù)源都像是一個插座一樣,我們做很多適配這種數(shù)據(jù)源的插頭,然后中間做對應轉換,就像網(wǎng)一樣相互串起來。然后定時的任務調度就及時的調用工具,把數(shù)據(jù)同步任務做了。
記者:為了提高可用性,每個電商平臺都有容災備份,以防止節(jié)點宕機失效帶來的不可用問題,這方面你們選會如何選擇備份策略?
王冬冬:對于ucloud的每個產(chǎn)品都有對應的容災策略。在基礎設施方面,在北京我們做了同城機房災備,3機房光纖環(huán)形鏈路鏈接,保證機房的高可用。在大數(shù)據(jù)產(chǎn)品方面,存儲是分布式存儲,數(shù)據(jù)保存3份拷貝。所有存儲、計算的關鍵節(jié)點都有熱備。mapreduce、spark都有容錯機制保證。同時我們自身的監(jiān)控系統(tǒng)也會及時發(fā)現(xiàn)問題,對問題任務進行調度處理。
網(wǎng)頁標題:專訪UCloud王冬冬:UDDP如何在大數(shù)據(jù)下拋頭露面
標題網(wǎng)址:http://m.5511xx.com/article/cdphpjh.html


咨詢
建站咨詢
