当前位置: 首页 > 知识库问答 >
问题:

Spark vs Flink内存不足

吕嘉赐
2023-03-14

我已经建立了一个Spark and Flink k-means应用程序。我的测试用例是一个3节点集群上的100万个点的集群。

当内存瓶颈开始时,Flink开始外包给磁盘,工作缓慢,但工作正常。然而,如果内存已满,Spark将失去执行器,并再次启动(无限循环?)。

我尝试在邮件列表的帮助下自定义内存设置,谢谢。但是火花仍然不起作用。

是否需要设置任何配置?我是说Flink的记忆力很差,斯帕克也必须能够;还是不?

共有1个答案

巫马劲
2023-03-14

我不是火花专家(我是Flink的贡献者)。据我所知,如果没有足够的主内存,Spark无法溢出到磁盘。这是Flink优于Spark的优势之一。然而,Spark宣布了一个名为“钨”的新项目,以启用类似于Flink的托管内存。我不知道这个功能是否已经可用:https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

关于Spark out memory问题有几个问题(一个带有“Spark out memory”的互联网搜索也会产生很多结果):

spark java。lang.OutOfMemoryError:Java堆空间Spark在按键分组时内存不足Spark内存不足

也许其中一个能帮上忙。

 类似资料:
  • 我正在努力解决古老的字谜问题。多亏了许多教程,我能够迭代一组字符串,递归地找到所有的排列,然后将它们与英语单词列表进行比较。我发现的问题是,在大约三个单词之后(通常是关于“变形”之类的东西),我会得到一个OutOfMemory错误。我试着把我的批分成小的集合,因为它似乎是消耗我所有内存的递归部分。但即使只是“变形”也把它锁起来了... 编辑:根据出色的反馈,我已经将生成器从排列更改为工作查找: 它

  • 问题内容: 我今天遇到一个奇怪的问题。对于其他人来说,这可能是一个简单的答案,但这让我感到困惑。为什么下面的代码会导致内存错误? 我得到了这两个错误之一…第一个是在节点的解释器中运行此代码时,第二个是通过nodeunit运行它时: 严重错误:CALL_AND_RETRY_2分配失败-内存不足 严重错误:JS分配失败-内存不足 问题答案: 当我尝试访问阵列时会发生这种情况。但是获取长度却没有。

  • 问题内容: 今天,我运行了用于文件系统索引编制的脚本,以刷新RAID文件索引,并在4小时后崩溃并出现以下错误: 服务器配备16GB RAM和24GB SSD交换。我非常怀疑我的脚本是否超过了36gb的内存。至少不应该 脚本使用文件元数据(修改日期,权限等,无大数据)创建存储为对象数组的文件索引 过去,我曾经用此脚本经历过奇怪的节点问题,这使我不得不这样做。在处理诸如String之类的大文件时,由于

  • 我正在PyTorch中运行一个评估脚本。我有许多经过训练的模型(*.pt文件),我将其加载并移动到GPU,总共占用270MB的GPU内存。我使用的批量大小为1。对于每个示例,我加载一个图像并将其移动到GPU。然后,根据样本,我需要运行一系列经过训练的模型。有些模型以张量作为输入和输出。其他模型的输入是张量,输出是字符串。序列中的最终模型总是有一个字符串作为输出。中间张量临时存储在字典中。当模型使用

  • STS不断崩溃,项目文件夹中的日志如下: 它始于我使用Winmerge比较和修改STS之外的java、pom和属性文件时

  • 我是刚到爪哇的。我只是试图了解如何处理堆内存溢出及其原因。有人能在下面的代码中帮助我为什么它会抛出这个错误吗。我怎么能避免。 错误: 线程“main”Java.lang.OutOfMemoryError中出现异常:Java.util.arrays.copyof(arrays.Java:2361)在Java.lang.AbstractStringBuilder.ExpandCapacity(Abst

  • 我将代码库从1.1.1升级为使用storm 2.0.0。现在我观察到,如果我在本地模式下运行拓扑,几分钟后它就会耗尽内存。 [THREAD ID=AsyncLocalizer执行器-2-EventThread]Dev-APC180-本地o. a. s. s. o. a. z.ClientCnxn错误,同时调用监视器java.lang.OutOfMemoryError:无法创建新的本机线程在java

  • 我已经经历了奇怪的节点问题在过去与这个脚本迫使我。在处理像String这样的大文件时,node会出现故障,将索引拆分为多个文件。有什么方法可以改进nodejs的内存管理与庞大的数据集?