在CDH 5.4中将火花连接在纱线簇上

胡意致

2023-03-14

共有1个答案

鲁德佑

2023-03-14

我应该在哪里为这个变量设置什么值？

变量HADOOP_CONF_DIR应该指向包含yarn-site.xml的目录。通常在~/.bashrc中设置。我找到了CDH的文件。http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/clustersetup.html

基本上，所有节点都需要有环境变量指向的配置文件。

类似资料：

火花提交纱线簇与--罐子不起作用？

我试图通过以下命令向CDH纱线集群提交spark作业我试过几种组合，但都不起作用。。。现在，我的本地/root以及HDFS/user/root/lib中都有所有poi JAR，因此我尝试了以下方法如何将JAR分发到所有集群节点？因为上面这些都不起作用，作业仍然无法引用该类，因为我一直收到相同的错误：同样的命令也适用于“--master本地”，但没有指定--jar，因为我已经将我的jar复制到
火花SASL不使用纱线在emr上工作

首先，我想说的是我看到的解决这个问题的唯一方法是：Spark 1.6.1 SASL。但是，在为spark和yarn认证添加配置时，仍然不起作用。下面是我在Amazon's EMR的一个yarn集群上使用spark-submit对spark的配置：注意，我用代码将spark.authenticate添加到了sparkContext的hadoop配置中，而不是core-site.xml（我假设我可以
纱线概念理解的火花
在纱线簇上执行Spark Submit时看不到纱线作业

我正在使用spark submit执行以下命令： spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇这工作做得很好。我可以在Spark History Server UI下看到它。但是，我无法在RessourceManager UI（纱线）下看到它。我感觉我的作业没有发送到集群，但它只在一个节点上
火花脂肪罐在纱线上运行多个版本

然而，我不知道我是否真的需要一个插件，如果需要，是哪一个，以及如何去做它。我尝试使用'build/mvn'和'build/sbt'直接编译github源代码，但是'spark-assembly2.11-2.0.2.jar'文件只有283字节。我的目标是使用较新版本的fat jar运行pyspark shell，其方式与这里提到的类似。
JDBC火花连接

我正在研究建立一个JDBC Spark连接，以便从r/Python使用。我知道和都是可用的，但它们似乎更适合交互式分析，特别是因为它们为用户保留了集群资源。我在考虑一些更类似于Tableau ODBC Spark connection的东西--一些更轻量级的东西（据我所知），用于支持简单的随机访问。虽然这似乎是可能的，而且有一些文档，但（对我来说）JDBC驱动程序的需求是什么并不清楚。既然Hiv

在CDH 5.4中将火花连接在纱线簇上

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档