当前位置: 首页 > 知识库问答 >
问题:

连接Spark本地群集时出错

夏涵畅
2023-03-14

我试图在本地mac中运行以下代码,其中运行有主从集群的spark集群

  public void run(String inputFilePath) {

    String master = "spark://192.168.1.199:7077";

    SparkConf conf = new SparkConf()
        .setAppName(WordCountTask.class.getName())
        .setMaster(master);
    JavaSparkContext context = new JavaSparkContext(conf);


    context.textFile(inputFilePath)
        .flatMap(text -> Arrays.asList(text.split(" ")).iterator())
        .mapToPair(word -> new Tuple2<>(word, 1))
        .reduceByKey((a, b) -> a + b)
        .foreach(result -> LOGGER.info(
            String.format("Word [%s] count [%d].", result._1(), result._2)));
  }
}

但是,在主控制台和

共有1个答案

巫马劲
2023-03-14

刚刚意识到Spark的版本在主/从和代码的POM文件中是不同的。提高了pom.xml中的版本,以匹配spark集群,它工作了。

 类似资料:
  • 我试图运行一个连接到本地独立spark集群的java应用程序。我使用start-all.sh以默认配置启动集群。当我转到集群的web页面时,它被启动为OK。我可以用SparkR连接到这个集群,但是当我使用相同的主URL从Java内部连接时,我会得到一条错误消息。 下面是Spark日志中的输出:

  • 我有一个安装了Rstudio的生产R群集。用户在R服务器上进行负载平衡,并在那里编写代码。我还有一个单独的Spark群集,它有4个节点。使用SparkyR,我可以通过以下方式轻松连接到spark群集: 唯一我注意到的是,当我这样做时,R正式服上有一些Spark应用程序的使用。我相信这会导致一些问题。我在R生产服务器和Spark集群上都安装了Spark,位于的相同位置。 我想完全避免在我的R服务器上

  • 我目前正在做一个小项目,我需要将kafka集群连接到mongodb,以便将发布到kafka主题的消息存储在mongodb数据库中。我目前有一个本地kafka集群,一个sping引导生产者向一个主题发布消息,一个spinger引导消费者在本地使用这些消息。我也在本地安装了mongob指南针……我一直在看教程,我发现我必须使用某种接收器连接器(mongob连接器)来做我想做的事情,但大多数示例都是基于

  • 可以任何一个请让我知道如何提交火花作业从本地和连接到卡桑德拉集群。 目前,我在通过putty登录到Cassandra节点并提交下面的dse-spark-submit job命令后提交了Spark作业。

  • 我试图在卡桑德拉的一小部分数据上运行一个火花工作。我手头有一个键的RDD(分区和集群列),我只想在这些键上运行我的作业。 我在BoundStatementBuilder上收到以下错误:19

  • 阅读此repo:Google Cloud Storage和BigQuery connectors下的说明,我按照以下初始化操作创建了一个新的Dataproc集群,其中安装了特定版本的Google Cloud Storage和BigQuery connector: --properties=core:fs。gs。含蓄的迪尔。修理启用=错误 正如您应该能够看到的,我必须将外部依赖项添加到我自己的桶中: