当前位置: 首页 > 知识库问答 >
问题:

关于Kuberenetes数据局部性的Spark和HDFS

瞿子濯
2023-03-14

我试图在K8上运行Spark,并在数据局部性方面有点挣扎。我正在使用原生的spark支持,但只是看了https://databricks.com/session/hdfs-on-kubernetes-lections-learned。我已经按照那里的步骤设置了我的HDFS集群(第一个k8节点上的namenode,使用主机网络)。我想知道是否有人知道对spark驱动程序的修正已经合并到主线spark代码中了?

我问,因为我仍然看到任何地方,我希望node_local。

共有1个答案

蒋烨然
2023-03-14

该代码是V2.2.0-Kubernetes-0.4.0版本的一部分

 类似资料:
  • 我有一个工作,需要访问在HDFS上的拼花地板文件,我想最大限度地减少网络活动。到目前为止,我已经在相同的节点上启动了HDFS Datanodes和Spark Worker,但是当我启动作业时,数据位置总是在任何应该是NODE_LOCAL的地方,因为数据分布在所有节点中。 我是否应该配置任何选项来告诉Spark在数据所在的地方启动任务?

  • 如果我理解正确的话,在静态分配中,当Spark上下文在集群中的所有节点上创建时(在集群模式下),Spark应用程序将获取执行器。我有几个问题 > 如果在所有节点上都获得了执行器,并且在整个应用程序的持续时间内一直分配给这个应用程序,那么是否有很多节点都处于空闲状态? 在创建Spark上下文而不是在DagScheduler中时获取资源的优势是什么?我的意思是应用程序可以任意长,它只是保存资源。 我检

  • 在写作的情况下,这样的机制将如何运作?我知道,从技术上讲,HDFS中的文件可以保存在本地的任何节点中,并复制到其他两个节点(因此,在3个副本中有两个使用网络),但是,如果您考虑写入其他系统,如NoSQL数据库(Cassandra、HBase等),这些系统有自己的分发数据的方式。是否有一种方法告诉spark以一种基于输出接收器(目标NoSQL数据库,从本地或通过OutputFormat看到)所期望的

  • 本文向大家介绍SVM和全部数据有关还是和局部数据有关?相关面试题,主要包含被问及SVM和全部数据有关还是和局部数据有关?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: SVM只和分类界限上的支持向量点有关,换而言之只和局部数据有关。

  • 参数和变量只存在于它们所在的函数内部。在main函数内部,没有phil这个东西存在。如果你想使用这个变量,编译器会报错。同样的,在printTwice内部,也没有argument这个变量。 类似这样的变量被称为局部变量。为了跟踪参数和局部变量,画一张栈图还是很有用的。像状态图一样,栈图展示出每个变量的值,然而变量都包含在大方框里,大方框表示变量所属的函数。 例如,printTwice的栈图如下: