1.3.7.5 Spark
优质
小牛编辑
145浏览
2023-12-01
spark基本使用
cd $SPARK_HOME
./bin/spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode cluster \
--master yarn lib/spark-examples-1.4.1-hadoop2.4.0.jar 10
pyspark
在使用pyspark的时候提交任务, worker有可能找不到spark框架的python lib库, 需要进行如下设置:
conf.set('spark.yarn.dist.files','file://$SPARK_HOME/python/lib/pyspark.zip,file:/usr/hdp/2.3.2.0-2950/spark/python/lib/py4j-0.8.2.1-src.zip')
conf.setExecutorEnv('PYTHONPATH','pyspark.zip:py4j-0.8.2.1-src.zip')
查看history
可以从spark historyServer的UI上查看history,方便定位一些问题。通常情况,架设好socks5代理后,点击作业链接直接能最终跳转到 Spark UI, 但是有些情况可能跳转失败。此时可以尝试访问http://${history_ip}:${history_port}
,并通过appId找到对应的history UI.
描述 | 端口 |
---|---|
history UI | 18900 |
NOTE: 上述${history_ip}参考架设socks5代理第4点获取,