当前位置: 首页 > 知识库问答 >
问题:

理想火花构型

杜彦君
2023-03-14

我在我们的项目中使用了HDFS上的Apache spark和MapR。我们正面临着运行火花工作的问题,因为它在数据小幅增加后失败了。我们正在从csv文件中读取数据,做一些转换,聚合,然后存储在HBASE中。

请建议,如果上面的配置看起来很好,因为am geting的错误看起来像是要离开内存。

共有1个答案

季森
2023-03-14

你能说说工作是如何失败的吗?如果没有更多的信息,就很难说了。如果您说出哪个版本的Spark,以及您是在Yarn下运行还是在独立的Spark集群上运行(甚至在Kubernetes上运行),这将会有所帮助

然而,即使没有任何信息,这里似乎也存在配置问题。可能发生的情况是,Spark被告知关于可用内存的矛盾的事情,因此当它试图使用它认为可以使用的内存时,系统说不可以。

 类似资料:
  • 我是新来的火花...在阅读基本原理时,一些基本的东西我不清楚:

  • 我正在处理UDF中的空值,该UDF在数据帧(源自配置单元表)上运行,该数据帧由浮点数结构组成: 数据帧()具有以下架构: 例如,我想计算x和y的总和。请注意,我不会在以下示例中“处理”空值,但我希望能够在我的udf中检查、或是否。 第一种方法: 如果<code>struct是否为空,因为在scala中<code>浮点不能为空。 第二种方法: 这种方法,我可以在我的udf中检查是否为空,但我可以检查

  • 我在火花数据帧中有一个“结构类型”列,它有一个数组和一个字符串作为子字段。我想修改数组并返回相同类型的新列。我可以用UDF处理它吗?或者有什么替代方案? 似乎我需要行类型的UDF,类似 这是有意义的,因为Spark不知道返回类型的模式。不幸的是,udf.register也失败了:

  • 一些脚本在工作时什么也不做,当我手动运行它们时,其中一个失败了,出现了以下消息: 错误SparkUI:未能绑定SparkUI java.net.bindexception:地址已在使用:服务“SparkUI”在重试16次后失败! 所以我想知道是否有一种特定的方法来并行运行脚本?

  • 我有一个用例,我必须以FIFO方式处理事件。这些是从机器生成的事件。每台机器每30秒生成一个事件。对于特定的机器,我们需要根据FIFO FASION对事件进行处理。 我们每天需要处理大约2.4亿个事件。对于如此大的规模,我们需要使用Kafka+火花流 从Kafka文档中,我了解到我们可以使用消息的关键字段将消息路由到特定的主题分区。这确保我可以使用机器id作为密钥,并确保来自特定机器的所有消息都进