问题：

PySpark火花与库伯内特斯大师会话生成器

白萧迟

2023-03-14

我最近看到一个pull请求被合并到Apache/Spark存储库中，该存储库显然为K8s上的PySpark添加了初始Python绑定。我在公关上发表了一条评论，问了一个关于如何在Python Jupyter笔记本中使用spark-on-k8s的问题，并被告知在这里问我的问题。

我的问题是：

有没有办法使用PySpark的Spark会话创建SparkContext。生成器主控设置为k8s：//

E、 g.：

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('k8s://https://kubernetes:443').getOrCreate()

我有一个交互式Jupyter笔记本在库伯内特斯pod中运行，我正在尝试使用PySpark创建一个在k8s上运行的SparkContext，而不是求助于使用local[*]作为master。

到目前为止，我一直错误地说：

错误：库伯内特斯目前不支持Python应用程序。

每当我将主控设置为k8s时：//

PySpark似乎总是在客户机模式下运行，目前spark-on-k8s似乎不支持这种模式——也许有一些我不知道的解决方法。

提前感谢！

共有1个答案

慕宏峻

2023-03-14

pyspark客户端模式适用于Spark的最新版本2.4.0

我是这样做的（在木星实验室）：

import os
os.environ['PYSPARK_PYTHON']="/usr/bin/python3.6"
os.environ['PYSPARK_DRIVER_PYTHON']="/usr/bin/python3.6"

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

sparkConf = SparkConf()
sparkConf.setMaster("k8s://https://localhost:6443")
sparkConf.setAppName("KUBERNETES-IS-AWESOME")
sparkConf.set("spark.kubernetes.container.image", "robot108/spark-py:latest")
sparkConf.set("spark.kubernetes.namespace", "playground")

spark = SparkSession.builder.config(conf=sparkConf).getOrCreate()
sc = spark.sparkContext

注意：我使用Docker Desktop在Mac上本地运行kubernetes。

类似资料：

库伯内特斯-通过Terraform升级库伯内特斯集群版本

我假设没有愚蠢的问题，所以这里有一个我找不到直接答案的问题。现在的情况我目前有一个运行1.15的Kubernetes集群。AKS上的x，通过Terraform部署和管理。AKS最近宣布Azure将在AKS上停用Kubernetes的1.15版本，我需要将集群升级到1.16或更高版本。现在，据我所知，直接在Azure中升级集群不会对集群的内容产生任何影响，即节点、豆荚、秘密和当前在那里的所有其他
库伯内特斯·德普洛伊姆斯

我在Kubernetes是个新手。我想知道在kubernetes环境中最好的生产部署场景是什么。在过去的学派中，我习惯于将Web服务器（例如Nginx或Apache）放在DMZ层，而将其放在其他层（我们称之为层）。这样，只有web服务器在DMZ上，恶意攻击只能在web服务器VM上进行。据我所知，K8S部署不再需要这种方法；这是因为K8S自己处理网络、吊舱和流量。所以我在考虑最确定的部署方案。
库伯内特斯工作清理

据我所知，作业对象应该在一定时间后收获豆荚。但是在我的GKE集群（库伯内特斯1.1.8）上，“kubectl get pods-a”似乎可以列出几天前的豆荚。所有这些都是使用乔布斯API创建的。我确实注意到在使用 kubectl 删除作业后，pod 也被删除了。我在这里主要担心的是，我将在批量作业中在集群上运行成千上万个pod，并且不想让内部待办系统过载。
库伯内特斯入口设置

我试图设置Kubernetes入口，将外部http流量路由到前端pod（路径/）和后端pod（路径/rest/*），但我总是得到400错误，而不是主nginx索引。html。所以我在第https://cloud.google.com/kubernetes-engine/docs/tutorials/http-balancer页尝试了谷歌库伯内特斯的例子，但我总是得到400个错误。有什么想法吗？
库伯内特斯云提供商

我是Kubernetes的新手，他们的概念我不太清楚：云提供商。我已经使用RKE（Rancher引擎）安装了我的库伯内特斯集群。我的集群设置在rancher2的顶部。我的节点是托管OVH服务器的虚拟机。我设法让运行中的应用程序具有L7入口和ClusterIP服务，但每次我尝试使用L4负载平衡器时，负载平衡器都处于挂起状态。根据https://github.com/rancher/ranch
库伯内特斯OOM杀人舱

我有一个简单的容器，它由安装在阿尔卑斯山上的OpenLDAP组成。它被安装为以非root用户身份运行。我能够使用我的本地Docker引擎运行容器而没有任何问题。但是，当我将其部署到我们的库伯内特斯系统时，它几乎立即被OOMKill杀死。我尝试在没有任何更改的情况下增加内存。我还查看了pod的内存使用情况，没有发现任何异常。服务器启动为slapd-d debug-hldap://0.0.0.0:1

PySpark火花与库伯内特斯大师会话生成器

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档