日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
詳解Spark集群搭建具體方法

spark是一個(gè)用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一計(jì)算引擎。適用于各種各樣原先需要多種不同的分布式平臺處理的場景,包括批處理、迭代計(jì)算、交互式查詢、流處理。通過統(tǒng)一的框架將各種處理流程整合到一起,下面為大家詳細(xì)講解一下spark集群搭建具體方法。

成都創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比興平網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式興平網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋興平地區(qū)。費(fèi)用合理售后完善,10年實(shí)體公司更值得信賴。

1 解壓縮文件

將spark-3.0.0-bin-hadoop3.2.tgz.tgz文件上傳到Linux并解壓縮在指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
cd /opt/module  
mv spark-3.0.0-bin-hadoop3.2 spark-standalone

2 修改配置文件

\1) 進(jìn)入解壓縮后路徑的conf目錄,修改slaves.template文件名為slaves

mv slaves.template slaves

\2) 修改slaves文件,添加work節(jié)點(diǎn)

hadoop102hadoop103hadoop104

\3) 修改spark-env.sh.template文件名為spark-env.sh

mv spark-env.sh.template spark-env.sh

\4) 修改spark-env.sh文件,添加JAVA_HOME環(huán)境變量和集群對應(yīng)的master節(jié)點(diǎn)

export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=hadoop102SPARK_MASTER_PORT=7077

注意:7077端口,相當(dāng)于hadoop3.x內(nèi)部通信的8020端口,此處的端口需要確認(rèn)自己的虛擬機(jī)配置

\5) 分發(fā)spark-standalone目錄

xsync spark-standalone

3 啟動集群

\1) 執(zhí)行腳本命令:

sbin/start-all.sh

\2) 查看三臺服務(wù)器運(yùn)行進(jìn)程

================hadoop102================
3330 Jps
3238 Worker
3163 Master
================hadoop103================
2966 Jps
2908 Worker
================hadoop104================
2978 Worker
3036 Jps

\3) 查看Master資源監(jiān)控Web UI界面: http://hadoop102:8080

4 提交應(yīng)用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

–class表示要執(zhí)行程序的主類

–master spark://hadoop102:7077 獨(dú)立部署模式,連接到Spark集群

spark-examples_2.12-3.0.0.jar 運(yùn)行類所在的jar包

數(shù)字10表示程序的入口參數(shù),用于設(shè)定當(dāng)前應(yīng)用的任務(wù)數(shù)量

執(zhí)行任務(wù)時(shí),會產(chǎn)生多個(gè)Java進(jìn)程 大數(shù)據(jù)Spark運(yùn)行環(huán)境:Standalone模式與配置詳解 執(zhí)行任務(wù)時(shí),默認(rèn)采用服務(wù)器集群節(jié)點(diǎn)的總核數(shù),每個(gè)節(jié)點(diǎn)內(nèi)存1024M。

5 配置歷史服務(wù)

由于spark-shell停止掉后,集群監(jiān)控hadoop102:4040頁面就看不到歷史任務(wù)的運(yùn)行情況,所以開發(fā)時(shí)都配置歷史服務(wù)器記錄任務(wù)運(yùn)行情況。

\1) 修改spark-defaults.conf.template文件名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

\2) 修改spark-default.conf文件,配置日志存儲路徑

spark.eventLog.enabled          true
spark.eventLog.dir               hdfs://hadoop102:8020/directory

注意:需要啟動hadoop集群,HDFS上的directory目錄需要提前存在。

sbin/start-dfs.sh
hadoop fs -mkdir /directory

\3) 修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS=" -Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory -Dspark.history.retainedApplications=30"

注:寫成一行!!空格隔開!!!

參數(shù)1含義:WEB UI訪問的端口號為18080

參數(shù)2含義:指定歷史服務(wù)器日志存儲路徑

參數(shù)3含義:指定保存Application歷史記錄的個(gè)數(shù),如果超過這個(gè)值,舊的應(yīng)用程序信息將被刪除,這個(gè)是內(nèi)存中的應(yīng)用數(shù),而不是頁面上顯示的應(yīng)用數(shù)。

\4) 分發(fā)配置文件

xsync conf

\5) 重新啟動集群和歷史服務(wù)

sbin/start-all.shsbin/start-history-server.sh

\6) 重新執(zhí)行任務(wù)

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

\7) 查看歷史服務(wù):http://hadoop102:18080

6 配置高可用(HA)

所謂的高可用是因?yàn)楫?dāng)前集群中的Master節(jié)點(diǎn)只有一個(gè),所以會存在單點(diǎn)故障問題。所以為了解決單點(diǎn)故障問題,需要在集群中配置多個(gè)Master節(jié)點(diǎn),一旦處于活動狀態(tài)的Master發(fā)生故障時(shí),由備用Master提供服務(wù),保證作業(yè)可以繼續(xù)執(zhí)行。這里的高可用一般采用Zookeeper設(shè)置

集群規(guī)劃: \1) 停止集群

sbin/stop-all.sh

\2) 啟動Zookeeper

\3) 修改spark-env.sh文件添加如下配置

注釋如下內(nèi)容:
#SPARK_MASTER_HOST=hadoop102#SPARK_MASTER_PORT=7077
添加如下內(nèi)容:#Master監(jiān)控頁面默認(rèn)訪問端口為8080,但是會和Zookeeper沖突,所以改成8989,也可以自定義,訪問UI監(jiān)控頁面時(shí)請注意
SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS=" -Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104 -Dspark.deploy.zookeeper.dir=/spark"
注:寫成一行!!空格隔開!!!

\4) 分發(fā)配置文件

xsync conf/

\5) 啟動集群

sbin/start-all.sh

\6) 啟動hadoop103的單獨(dú)Master節(jié)點(diǎn),此時(shí)hadoop103節(jié)點(diǎn)Master狀態(tài)處于備用狀態(tài)

[bigdata@hadoop103 spark-standalone]$ sbin/start-master.sh

\7) 提交應(yīng)用到高可用集群

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

\8) 停止hadoop102的Master資源監(jiān)控進(jìn)程

\9) 查看hadoop103的Master 資源監(jiān)控Web UI,稍等一段時(shí)間后,hadoop103節(jié)點(diǎn)的Master狀態(tài)提升為活動狀態(tài)


網(wǎng)頁題目:詳解Spark集群搭建具體方法
標(biāo)題來源:http://m.5511xx.com/article/cdidsdg.html