问题：

火花内存不足错误

弓方伟

2023-03-14

我的spark程序在小数据集上运行良好。（大约400GB）但是当我将其扩展到大型数据集时。我开始得到错误java。lang.OutOfMemoryError：Java堆空间或Java。lang.OutOfMemoryError：请求的数组大小超过VM限制

我的程序如下：sc.textFile-

生成RDD类型的结果[（int，可迭代的[A]）]

保存对象文件时出错。我能想到的唯一原因是：在groupBy步骤中，一些键包含的数据太大。然而，我用蜂箱检查了所有键，最大的一个是33008。A类也不是很大。

我的配置是：-驱动程序内存20G--num executors 120--executor内存30G Spark版本：1.4

15/07/03 07:05:06 ERROR ActorSystemImpl: Uncaught fatal error from thread 
[sparkDriver-akka.remote.default-remote-dispatcher-5] shutting down ActorSystem [sparkDriver]
java.lang.OutOfMemoryError: Java heap space
        at java.util.Arrays.copyOf(Arrays.java:2271)
        at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:113)
        at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
        at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:140)
        at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1876)
        at java.io.ObjectOutputStream$BlockDataOutputStream.setBlockDataMode(ObjectOutputStream.java:1785)
        at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1188)
        at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
        at akka.serialization.JavaSerializer$$anonfun$toBinary$1.apply$mcV$sp(Serializer.scala:129)
        at akka.serialization.JavaSerializer$$anonfun$toBinary$1.apply(Serializer.scala:129)
        at akka.serialization.JavaSerializer$$anonfun$toBinary$1.apply(Serializer.scala:129)
        at scala.util.DynamicVariable.withValue(DynamicVariable.scala:57)
        at akka.serialization.JavaSerializer.toBinary(Serializer.scala:129)
        at akka.remote.MessageSerializer$.serialize(MessageSerializer.scala:36)
        at akka.remote.EndpointWriter$$anonfun$serializeMessage$1.apply(Endpoint.scala:845)
        at akka.remote.EndpointWriter$$anonfun$serializeMessage$1.apply(Endpoint.scala:845)
        at scala.util.DynamicVariable.withValue(DynamicVariable.scala:57)
        at akka.remote.EndpointWriter.serializeMessage(Endpoint.scala:844)
        at akka.remote.EndpointWriter.writeSend(Endpoint.scala:747)
        at akka.remote.EndpointWriter$$anonfun$2.applyOrElse(Endpoint.scala:722)
        at akka.actor.Actor$class.aroundReceive(Actor.scala:465)
        at akka.remote.EndpointActor.aroundReceive(Endpoint.scala:415)
        at akka.actor.ActorCell.receiveMessage(ActorCell.scala:516)
        at akka.actor.ActorCell.invoke(ActorCell.scala:487)
        at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238)
        at akka.dispatch.Mailbox.run(Mailbox.scala:220)

共有2个答案

桓高澹

2023-03-14

您的工作可能不平衡，所以一些分区会获得很多键（及其值）。您可以尝试添加更多分区和/或编写自定义分区器，根据您对数据的了解来平衡分区

秦建元

2023-03-14

驱动程序内存不足的快速解决方案是使用“spark.driver.memory”属性增加驱动程序内存。

下面的文章可能有助于驱动程序和执行程序的内存分配http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-where-have-all-my-memory-gone/

还要注意的是，GroupByKey的操作成本更高。所以尽量避免使用reduceByKey。

http://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html

类似资料：

NetBeans内存不足错误

问题内容：我是Netbeans中这种错误的新手。我一直在使用Java Bean 8.0.2在Java J2SE中工作。我正在对字符串进行模糊搜索，通常字符串长度为300-500。我正在使用Levenshtein和Jaro Winkler算法来查找字符串之间的距离。大约有1500次迭代来查找字符串之间的距离！问题是我的Net Bean通常会为以下内容提供错误：我已经在线进行了一些搜索来摆脱此错误
ConnectionQueueStatsProvider内存不足错误

上周，我们在生产环境中遇到了内存不足的错误。这种内存不足的错误可能每周发生一次，当前的解决方案是重新启动应用程序服务器。我们使用的是glassfish 3.0.1。生成的堆转储约为5GB。请帮助分析下面的堆转储。下面是使用eclipse MAT生成的泄漏嫌疑人报告。我们如何分析下面的报告？
蚂蚁内存不足错误

问题内容：我正在尝试运行ant任务，但是出现以下错误：我尝试使用谷歌搜索来查找如何设置此值，但找不到。我努力了我努力了但我仍然遇到同样的例外。我尝试将值成功增加到1024m 更新资料我解决了它与很少的内存无关。在我的javadoc一代中，这是一个无休止的循环。问题答案：我解决了它与很少的内存无关。在我的javadoc一代中，这是一个无休止的循环。为ant设置更多内存的正确方法是
并行化步骤中的火花内存错误

我们正在使用最新的Spark构建。我们有一个非常大的元组列表（8亿）作为输入。我们使用具有主节点和多个工作节点的docker容器运行Pyspark程序。驱动程序用于运行程序并连接到主机。运行程序时，在sc.parallelize（tuplelist）行，程序要么退出并显示java堆错误消息，要么完全退出而不出错。我们不使用任何Hadoop HDFS层，也不使用纱线。到目前为止，我们已经考虑了这
内存不足

我正在努力解决古老的字谜问题。多亏了许多教程，我能够迭代一组字符串，递归地找到所有的排列，然后将它们与英语单词列表进行比较。我发现的问题是，在大约三个单词之后（通常是关于“变形”之类的东西），我会得到一个OutOfMemory错误。我试着把我的批分成小的集合，因为它似乎是消耗我所有内存的递归部分。但即使只是“变形”也把它锁起来了... 编辑：根据出色的反馈，我已经将生成器从排列更改为工作查找：它
Hadoop中的内存不足错误

问题内容：我尝试按照此http://hadoop.apache.org/common/docs/stable/single_node_setup.html文档安装Hadoop 。当我尝试执行此我收到以下异常请提出一个解决方案，以便我可以尝试该示例。整个异常在下面列出。我是Hadoop的新手，我可能做过一些愚蠢的事情。任何建议将不胜感激。问题答案：您可以通过编辑conf / mapred-

火花内存不足错误

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档