我们在上篇文章已经学习使用spark on k8s的client mode 运行了spark shell 和提交jar包运行任务。
hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode和使用
本篇文章记录运行pyspark和提交python程序。
在包含spark安装目录的 目录中创建Dockerfile
因为python3和java的结合镜像 一般没有直接可以使用的。所以我们自己做一个,思路是 在python3的基础上 安装jdk。
在包含spark安装包的目录下载jdk安装包
官网下载需要登陆oracle账号,有点麻烦。
分享一个百度网盘地址
放在与Dockerfile和spark-2.4.4-bin-hadoop2.7同一个目录 如下:
zhangxiofansmbp:spark joe$