新聞中心
本節(jié)和大家一起學習一下Hadoop,主要介紹一下Hadoop的概念以及它的特點,歡迎大家一起來學習Hadoop的知識。

網站建設哪家好,找創(chuàng)新互聯建站!專注于網頁設計、網站建設、微信開發(fā)、成都小程序開發(fā)、集團企業(yè)網站建設等服務項目。為回饋新老客戶創(chuàng)新互聯還提供了杏花嶺免費建站歡迎大家使用!
1.Hadoop是什么
Hadoop原來是ApacheLucene下的一個子項目,它最初是從Nutch項目中分離出來的專門負責分布式存儲以及分布式運算的項目。簡單地說來,Hadoop是一個可以更容易開發(fā)和運行處理大規(guī)模數據的軟件平臺。
2.下面列舉hadoop主要的一些特點:
1擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(jié)(PB)數據。
2成本低(Economical):可以通過普通機器組成的服務器群來分發(fā)以及處理數據。這些服務器群總計可達數千個節(jié)點。
3高效率(Efficient):通過分發(fā)數據,hadoop可以在數據所在的節(jié)點上并行地(parallel)處理它們,這使得處理非常的快速。
4可靠性(Reliable):hadoop能自動地維護數據的多份復制,并且在任務失敗后能自動地重新部署(redeploy)計算任務。
3.Hadoop實現了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。
HDFS有著高容錯性(fault-tolerent)的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(highthroughput)來訪問應用程序的數據,適合那些有著超大數據集(largedataset)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streamingaccess)文件系統(tǒng)中的數據。
4.Hadoop還實現了MapReduce分布式計算模型。
MapReduce將應用程序的工作分解成很多小的工作小塊(smallblocksofwork)。HDFS為了做到可靠性(reliability)創(chuàng)建了多份數據塊(datablocks)的復制(replicas),并將它們放置在服務器群的計算節(jié)點中(computenodes),MapReduce就可以在它們所在的節(jié)點上處理這些數據了。
如下圖所示:
5.HadoopAPI被分成(divideinto)如下幾種主要的包(package)
org.apache.hadoop.conf定義了系統(tǒng)參數的配置文件處理API。
org.apache.hadoop.fs定義了抽象的文件系統(tǒng)API。
org.apache.hadoop.dfsHadoop分布式文件系統(tǒng)(HDFS)模塊的實現。
org.apache.hadoop.io定義了通用的I/OAPI,用于針對網絡,數據庫,文件等數據對象做讀寫操作。
org.apache.hadoop.ipc用于網絡服務端和客戶端的工具,封裝了網絡異步I/O的基礎模塊。
org.apache.hadoop.mapredHadoop分布式計算系統(tǒng)(MapReduce)模塊的實現,包括任務的分發(fā)調度等。
org.apache.hadoop.metrics定義了用于性能統(tǒng)計信息的API,主要用于mapred和dfs模塊。
org.apache.hadoop.record定義了針對記錄的I/OAPI類以及一個記錄描述語言翻譯器,用于簡化將記錄序列化成語言中性的格式(language-neutralmanner)。
org.apache.hadoop.tools定義了一些通用的工具。
org.apache.hadoop.util定義了一些公用的API。
分享文章:學習筆記Hadoop是什么?
標題鏈接:http://m.5511xx.com/article/dppjhds.html


咨詢
建站咨詢
