问题：

火花：多个火花-并行提交

国阳

2023-03-14

一些脚本在工作时什么也不做，当我手动运行它们时，其中一个失败了，出现了以下消息：

错误SparkUI：未能绑定SparkUI java.net.bindexception：地址已在使用：服务“SparkUI”在重试16次后失败！

所以我想知道是否有一种特定的方法来并行运行脚本？

sudo -u spark spark-submit --class org.soprism.kafka.connector.reader.TwitterPostsMessageWriter /home/soprism/sparkmigration/data-migration-assembly-1.0.jar --master yarn-cluster --deploy-mode client

root@ns6512097:~# sudo -u spark spark-submit --class org.soprism.kafka.connector.reader.TwitterPostsMessageWriter --master yarn --deploy-mode client /home/soprism/sparkmigration/data-migration-assembly-1.0.jar
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7.p0.3/jars/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7.p0.3/jars/avro-tools-1.7.6-cdh5.4.7.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
15/09/28 16:14:21 INFO Remoting: Starting remoting
15/09/28 16:14:21 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@ns6512097.ip-37-187-69.eu:52748]
15/09/28 16:14:21 INFO Remoting: Remoting now listens on addresses: [akka.tcp://sparkDriver@ns6512097.ip-37-187-69.eu:52748]
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7.p0.3/jars/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.4.7-1.cdh5.4.7.p0.3/jars/avro-tools-1.7.6-cdh5.4.7.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

共有1个答案

雍焱

2023-03-14

如果多个用户试图同时启动spark会话或现有spark会话的属性未关闭，则会出现此问题

有两种方法可以解决这个问题。

在不同的端口上启动新的spark会话，如下所示

spark-submit --conf spark.ui.port=5051 <other arguments>`<br>`spark-shell --conf spark.ui.port=5051

sudo netstat -tunalp | grep LISTEN| grep 4041

tcp        0      0 :::4040    :::*         LISTEN      32028/java

sudo kill -9 32028

类似资料：

ClassNotFoundException火花-提交scala

嗨，我正在尝试生成Salt示例的输出，但没有使用文档中提到的docker。我找到了帮助生成输出的scala代码，这是main.scala。我将main.scala修改为一个方便的main.scala, 我为这个scala创建了一个单独的文件夹, calac-cp“lib/salt.jar：lib/spark.jar”main.scala 这已成功运行并在文件夹BinexTest下生成类。现在,项
火花行到JSON

我想从Spark v.1.6（使用scala）数据帧创建一个JSON。我知道有一个简单的解决方案，就是做。但是，我的问题看起来有点不同。例如，考虑具有以下列的数据帧：我想在最后有一个数据帧其中C是包含、、的JSON。不幸的是，我在编译时不知道数据框是什么样子的（除了始终“固定”的列和）。至于我需要这个的原因：我使用Protobuf发送结果。不幸的是，我的数据帧有时有比预期更多的列，我仍然会
火花纱远程提交

我可以从IDE（远程）编程运行这个程序吗？我使用Scala-IDE。我寻找一些代码来遵循，但仍然没有找到合适的我的环境:-Cloudera 5.8.2[OS redhat 7.2,kerberos 5,Spark2.1,scala 2.11]-Windows 7
多个RDD的火花联合

问题内容：在我的猪代码中，我这样做：我想用spark做同样的事情。但是，不幸的是，我看到我必须成对进行：是否有联合运算符可以让我一次对多个rdds进行操作：例如这是一个方便的问题。问题答案：如果这些是RDD，则可以使用方法：没有等效项，但这只是一个简单的问题：如果要在RDD上大量使用和重新创建，可能是避免与准备执行计划的成本相关的问题的更好选择：
如何优化火花sql并行运行

我是spark新手，有一个简单的spark应用程序，使用spark SQL/hiveContext：从hive表中选择数据（10亿行）做一些过滤，聚合，包括row_number窗口函数来选择第一行，分组，计数（）和最大（）等。将结果写入HBase（数亿行）我提交的作业运行它在纱线集群（100个执行者），它很慢，当我在火花UI中查看DAG可视化时，似乎只有蜂巢表扫描任务并行运行，其余的步骤#
火花纱模式如何从火花提交中获得应用程序

当我使用spark-submit with master yarn和deploy-mode cluster提交spark作业时，它不会打印/返回任何applicationId，一旦作业完成，我必须手动检查MapReduce jobHistory或spark HistoryServer来获取作业细节。我的集群被许多用户使用，在jobHistory/HistoryServer中找到我的作业需要很多时

火花：多个火花-并行提交

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档