问题：

试图持久化数据记录时内存不足

蓝飞

2023-03-14

df = spark.read.parquet(path) # 20 Gb
df_filter = df.select('a', 'b', 'c', 'd').where(df.a == something) # a few Gb
df_filter.persist(StorageLevel.MEMORY_AND_DISK) 
df_filter.count()

共有1个答案

彭朝

2023-03-14

只是一些建议来帮助确定根本原因...

你可能有...

扭曲的源数据分区分割大小，这很难处理，并导致垃圾收集、OOM等（这些方法对我有所帮助，但每个用例可能有更好的方法）

# to check num partitions
df_filter.rdd.getNumPartitions()

# to repartition (**does cause shuffle**) to increase parallelism and help with data skew
df_filter.repartition(...) # monitor/debug performance in spark ui after setting

# check via
spark.sparkContext.getConf().getAll()

# these are the ones you want to watch out for
'''
--num-executors
--executor-cores
--executor-memory
'''

# debug directed acyclic graph [dag]
df_filter.explain() # also "babysit" in spark UI to examine performance of each node/partitions to get specs when you are persisting

# check output partitions if shuffle occurs
spark.conf.get("spark.sql.shuffle.partitions")

类似资料：

数据持久化存储

主要内容：一、数据持久化,二、持久化的形式,三、源码分析,四、总结一、数据持久化 redis做为一种内存型数据库，做持久化，个人感觉略有鸡肋的意思。似乎有一种，别人有，自己不有也不行的感觉。以目前Redis主流的应用方式，如果仔细分析，基本上都是在内存中即可完成，对持久化没要求或者说不大。再举一个反例，如果内存中有几百G甚至更多的数据，真要是整体当机，恢复的时间基本就是灾难。目前基本应用仍然是以关系型数据库或者其它数据库（如Hadoop，Mysql等）为持久化
内存中数据库如何持久化数据

我在研究内存数据库的概念。有关这方面的文章说，内存数据库系统是一种将数据完全存储在主存中的数据库管理系统。他们讨论了这个概念的优点和缺点。我的问题是如果这些数据库管理系统将数据完全存储在主存储器中，停电后所有数据都消失了吗？？？还是有办法保护数据？？？
模型 - 持久化记录

英文原文：http://emberjs.com/guides/models/persisting-records/ Ember Data中的记录都基于实例来进行持久化。调用DS.Model实例的save()会触发一个网络请求，来进行记录的持久化。下面是几个示例： 1 2 3 4 5 6 var post = store.createRecord('post', { title: 'Rail
持久化数据库存储

目的配置 NFS 共享为 OpenShift 节点提供存储,并且配置 OpenShift 持久卷以绑定至数据库 Pod。环境 openshift v3.11.16/kubernetes v1.11.0 步骤配置 NFS 共享持久卷1. 登录到 NFS 服务器 # ssh nfs.example.com2. 创建 config-nfs.sh 脚本，内容如下 #!/usr/bin/sh exp
内存型数据库Redis持久化小结

本文向大家介绍内存型数据库Redis持久化小结，包括了内存型数据库Redis持久化小结的使用技巧和注意事项，需要的朋友参考一下因为Redis是内存型数据库，所以为了防止因为系统崩溃等原因导致数据丢失的问题，Redis提供了两种不同的持久化方法来将数据存储在硬盘里面，一种方法是快照（RDB），它可以将存在于某一个时刻的所有数据都写入到硬盘里面，另外一种方法是只追加文件（AOF），它会在执行写命令时
内存分布式缓存中的数据分区与数据持久化

null 假设我有100张唱片。缓存只能保存40条记录（最常用）和100条记录在磁盘文件（不在任何其他数据库中）。所以，如果从这100条记录中请求任何东西，我就不必去实际的数据库（例如Sybase db）？如果在100条记录中找到了密钥，但它不存在于内存缓存中（40条记录），则获取该密钥，放入内存缓存中，并使用驱逐策略将其他密钥交换到磁盘文件中（但在磁盘上，我总是有100条记录）如果缓存和磁

试图持久化数据记录时内存不足

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档