问题：

火花垃圾连接到主机

谭兴学

2023-03-14

我正试图设置一个小型Spark集群进行测试。该集群由3名工人和一名师傅组成。我在每个节点上设置了Java、scala和Spark。配置文件如下：spark-defaults.conf：

spark.master                 spark://test01.scem:7077
 spark.eventLog.enabled      true
 spark.eventLog.dir         hdfs://test01.scem/user/spark/applicationHistory
 spark.executor.memory       4g
 spark.serializer            org.apache.spark.serializer.KryoSerializer
 spark.driver.memory         5g
 spark.yarn.archive          hdfs://test01.scem/user/spark

Spark-env.sh

export SPARK_CONF_DIR=/usr/hadoop/spark-2.1.0-bin-hadoop2.7/conf
export SPARK_LOG_DIR=/var/log/spark
export SPARK_PID_DIR=/var/run/spark
export HADOOP_HOME=${HADOOP_HOME:-/usr/hadoop}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/usr/hadoop/etc/hadoop}

WARN client.StandaloneAppClient$ClientEndpoint: Failed to connect to master test01.scem:7077
org.apache.spark.SparkException: Exception thrown in awaitResult

共有1个答案

岳志义

2023-03-14

检查一下你是否能ping主人。如果是真的，请使用netstat命令检查主端口7077是否被占用。如果两者均为真，则可能是防火墙问题

类似资料：

火花启动-从机未连接到主机

当我尝试使用start-slave.sh连接到主服务器时，spark：//master：port如这里所述我正在得到这个错误日志我尝试使用本地ip和本地名称访问主服务器（我设法同时使用和不使用密码ssh到主服务器、用户和root用户）谢了！
JDBC火花连接

我正在研究建立一个JDBC Spark连接，以便从r/Python使用。我知道和都是可用的，但它们似乎更适合交互式分析，特别是因为它们为用户保留了集群资源。我在考虑一些更类似于Tableau ODBC Spark connection的东西--一些更轻量级的东西（据我所知），用于支持简单的随机访问。虽然这似乎是可能的，而且有一些文档，但（对我来说）JDBC驱动程序的需求是什么并不清楚。既然Hiv
火花主机：7077无法到达

我有一个Spark Spark集群，其中主节点也是工作节点。我无法从驱动程序代码节点到达主程序，并得到错误： driver-code节点中的SparkContext配置为: 我可以成功地，但不能成功地。意味着机器可以到达，但端口不能到达。会有什么问题？我已经为主节点和驱动程序代码运行的节点（客户端）禁用了Ubuntu的防火墙。
火花连接：括号问题

我要加入两个rdd。示例文件1数据: 示例文件2数据：下面是代码： o/p是k，(v)，我想在做进一步处理时去掉值两边的括号。我尝试了一些事情，包括我还保存了结果：不幸的是，结果总是以下格式：我希望他们：
用火花连接器填充Neo4j

我使用Spark2和neo4j3（安装在一个节点上），并使用这个spark/Neo4j https://github.com/neo4j-contrib/neo4j-spark-connector 我可以使用我的数据库。多谢帮忙。
更好的蜂巢-火花连接？

我正在回顾一个旧的Spark软件，它必须并行运行许多小的查询和计数()并使用直接的hive-sql。在过去，该软件通过在shell()上直线运行每个查询来解决“并行化查询的问题”。我不能用现代新鲜的Spark，此刻只有Spark V2.2。下面的片段说明了完整的SQL查询方法。有一种“Spark方式”可以访问Hive并运行SQL查询，性能（略）更好，而且Spark配置的重用性更好？没有丢失纯

火花垃圾连接到主机

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档