当前位置: 首页 > 知识库问答 >
问题:

火花垃圾连接到主机

谭兴学
2023-03-14

我正试图设置一个小型Spark集群进行测试。该集群由3名工人和一名师傅组成。我在每个节点上设置了Java、scala和Spark。配置文件如下:spark-defaults.conf:

spark.master                 spark://test01.scem:7077
 spark.eventLog.enabled      true
 spark.eventLog.dir         hdfs://test01.scem/user/spark/applicationHistory
 spark.executor.memory       4g
 spark.serializer            org.apache.spark.serializer.KryoSerializer
 spark.driver.memory         5g
 spark.yarn.archive          hdfs://test01.scem/user/spark

Spark-env.sh

export SPARK_CONF_DIR=/usr/hadoop/spark-2.1.0-bin-hadoop2.7/conf
export SPARK_LOG_DIR=/var/log/spark
export SPARK_PID_DIR=/var/run/spark
export HADOOP_HOME=${HADOOP_HOME:-/usr/hadoop}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/usr/hadoop/etc/hadoop}
WARN client.StandaloneAppClient$ClientEndpoint: Failed to connect to master test01.scem:7077
org.apache.spark.SparkException: Exception thrown in awaitResult

共有1个答案

岳志义
2023-03-14

检查一下你是否能ping主人。如果是真的,请使用netstat命令检查主端口7077是否被占用。如果两者均为真,则可能是防火墙问题

 类似资料:
  • 当我尝试使用start-slave.sh连接到主服务器时,spark://master:port如这里所述 我正在得到这个错误日志 我尝试使用本地ip和本地名称访问主服务器(我设法同时使用和不使用密码ssh到主服务器、用户和root用户) 谢了!

  • 我正在研究建立一个JDBC Spark连接,以便从r/Python使用。我知道和都是可用的,但它们似乎更适合交互式分析,特别是因为它们为用户保留了集群资源。我在考虑一些更类似于Tableau ODBC Spark connection的东西--一些更轻量级的东西(据我所知),用于支持简单的随机访问。虽然这似乎是可能的,而且有一些文档,但(对我来说)JDBC驱动程序的需求是什么并不清楚。 既然Hiv

  • 我有一个Spark Spark集群,其中主节点也是工作节点。我无法从驱动程序代码节点到达主程序,并得到错误: driver-code节点中的SparkContext配置为: 我可以成功地,但不能成功地。意味着机器可以到达,但端口不能到达。 会有什么问题?我已经为主节点和驱动程序代码运行的节点(客户端)禁用了Ubuntu的防火墙。

  • 我要加入两个rdd。 示例文件1数据: 示例文件2数据: 下面是代码: o/p是k,(v),我想在做进一步处理时去掉值两边的括号。我尝试了一些事情,包括 我还保存了结果: 不幸的是,结果总是以下格式: 我希望他们:

  • 我使用Spark2和neo4j3(安装在一个节点上),并使用这个spark/Neo4j https://github.com/neo4j-contrib/neo4j-spark-connector 我可以使用我的数据库。 多谢帮忙。

  • 我正在回顾一个旧的Spark软件,它必须并行运行许多小的查询和计数()并使用直接的hive-sql。 在过去,该软件通过在shell()上直线运行每个查询来解决“并行化查询的问题”。我不能用现代新鲜的Spark,此刻只有Spark V2.2。下面的片段说明了完整的SQL查询方法。 有一种“Spark方式”可以访问Hive并运行SQL查询,性能(略)更好,而且Spark配置的重用性更好? 没有丢失纯