我们在上篇文章中已经成功运行使用spark-submit提交了python程序运行spark。
hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark
本篇文章记录 在client pod中使用spark-submit提交python程序在spark on k8s中访问s3。
关于pod的创建和yaml请参考上一篇文章。
使用命令进入pod中
kubectl exec -ti spark-client-test -- bash
进入安装目录
cd spark-2.4.4-bin-hadoop2.7/
使用命令
vi spark-s3.py
输入代码如下:
from __future__ import print_function
import sys
from random import random
from operator import add
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\