问题：

如何高效地将大数据加载到熊猫中？[副本]

荀豪

2023-03-14

我正在处理一个非常宽的数据集（1005行*590，718列，1.2g)。将如此大的数据集加载到pandas dataframe中会导致完全由于内存不足而导致代码失败。

我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案，但是Pandas中是否有任何适合的解决方案来减少加载大型数据时的内存占用？

共有1个答案

严承允

2023-03-14

你可以用

pandas.read_csv(filename, chunksize = chunksize)

类似资料：

如何有效地将pos_tag_sents（）应用于熊猫数据框

问题内容：在您希望POS标记存储在熊猫数据框中的一列文本（每行只有一句话）的情况下，SO上的大多数实现都使用apply方法 NLTK文档建议使用pos_tag_sents（）有效标记多个句子。这是否适用于此示例，如果是，那么代码是否像更改为那样简单，或者NLTK意味着段落的文本源正如评论中提到的那样，目的是每次都减少感受器的负载，但是问题是如何做到这一点，并且仍然在熊猫数据框中生成一列？
将大型数据文件导入熊猫[副本]

我有一个1.5GB.dat文件需要作为pandas数据帧导入，我遇到了内存问题(8GB RAM）。如何将dat文件分解成块来执行分析？
将列追加到熊猫数据框

问题内容：这可能很容易，但是我有以下数据：在数据框1中：在数据框2中：我想要一个具有以下形式的数据框：我尝试使用该方法，但是得到了交叉连接（即笛卡尔积）。什么是正确的方法？问题答案：通常看来，您只是在寻找联接：
高效扁平化熊猫数据框

问题内容：我有一个熊猫数据框。看起来像这样：但有100行和100列。我想展平它，使其看起来像这样：最有效的方法是什么？谢谢，插口问题答案：选项1 无法100％确定效率，但最简单的方法是使用。选项2 另一个简单的选项 - 要么，
如何在熊猫数据框架中聚合数据？[副本]

我用熊猫数据框来处理数据。现在我需要聚合数据，并想知道如何聚合数据。我有：我想用打印创建：
使用熊猫从txt加载数据

问题内容：我正在加载一个包含浮点和字符串数据混合的txt文件。我想将它们存储在可以访问每个元素的数组中。现在我正在做这是输入文件的结构：。现在，数据将作为唯一列导入。我如何划分它，以便分别存储不同的元素（所以我可以调用）？以及如何定义标题？问题答案：您可以使用：添加您的代码，在引号之间留一个空格。因此，熊猫可以检测值之间的空格并按列排序。数据列用于命名您的列。

如何高效地将大数据加载到熊猫中？[副本]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档