当前位置：首页 > 面试题库 >

将大熊猫数据帧分块写入CSV文件

郝乐心

2023-03-14

问题内容：

如何将大数据文件分块写入CSV文件？

我有一组大型数据文件（1M行x 20列）。但是，我只关注该数据的5列左右。

我想通过只用感兴趣的列制作这些文件的副本来使事情变得更容易，所以我可以使用较小的文件进行后期处理。因此，我计划将文件读取到数据帧中，然后写入csv文件。

我一直在研究将大数据文件以块的形式读入数据框。但是，我还无法找到有关如何将数据分块写入csv文件的任何信息。

这是我现在正在尝试的方法，但这不会附加csv文件：

with open(os.path.join(folder, filename), 'r') as src:
    df = pd.read_csv(src, sep='\t',skiprows=(0,1,2),header=(0), chunksize=1000)
    for chunk in df:
        chunk.to_csv(os.path.join(folder, new_folder,
                                  "new_file_" + filename), 
                                  columns = [['TIME','STUFF']])

问题答案：

解：

header = True
for chunk in chunks:

    chunk.to_csv(os.path.join(folder, new_folder, "new_file_" + filename),
        header=header, cols=[['TIME','STUFF']], mode='a')

    header = False

笔记：

在mode='a'讲述大熊猫追加。
我们只在第一个块上写一个列标题。

类似资料：

将CSV文件导入为熊猫数据帧

Python是如何将CSV文件读入pandas数据帧的（我可以使用它进行统计操作，可以有不同类型的列，等等）？我的CSV文件有以下内容：在R中，我们将使用以下方法读取此文件：这将返回一个R数据。框架：有没有类似python的方法来获得相同的功能？
熊猫将数据框列写入csv

问题内容：我正在编写一个脚本，以将带有标头的大.xlsx文件减少到一个csv中，然后根据标头名称仅写有所需列的新csv文件。我得到的错误是最后一部分代码，它说我确定我忽略了一些愚蠢的事情，但是我已经阅读了熊猫网站上的to_csv文档，但我仍然感到茫然。我知道我使用了不正确的to_csv参数，但我似乎无法理解我猜的文档。任何帮助表示赞赏，谢谢！问题答案：选择特定列的方法是这样的-
将pandas数据帧写入CSV文件

我在pandas中有一个数据帧，我想把它写到CSV文件中。我使用的是：并得到错误：有没有什么方法可以很容易地解决这个问题（例如，我的数据帧中有unicode字符）？还有，有没有一种方法可以使用“to-tab”方法（我认为不存在）写入以制表符分隔的文件，而不是CSV？
将big Spark数据帧写入csv文件

我正在使用Spark 2.3，我需要将Spark数据帧保存到csv文件中，我正在寻找更好的方法。。查看相关/类似的问题，我发现了这个问题，但我需要一个更具体的：如果DataFrame太大，如何避免使用Pandas？因为我使用了函数（下面的代码），它产生了：内存不足错误（无法分配内存）。使用文件I/O直接写入csv是更好的方法吗？它可以保留分隔符吗？使用df。聚结（1）。写选项（“标题”、“
熊猫用append将数据帧写入拼花格式

我正试图在模式下将写入文件格式（在最新的pandas版本0.21.0中引入）。但是，文件将被新数据覆盖，而不是附加到现有文件。我错过了什么？写入语法是读取语法是
将大型数据文件导入熊猫[副本]

我有一个1.5GB.dat文件需要作为pandas数据帧导入，我遇到了内存问题(8GB RAM）。如何将dat文件分解成块来执行分析？

相关阅读

熊猫替换和不区分大小写 Python将列表数据写入文件（txt, csv，excel）如何有效地迭代熊猫数据帧的连续块数据透视表还是大熊猫分组依据？将JSON文件读取为熊猫数据框？

相关文章

Firebase写入列表数据 Python csv模块 R语言数据帧博观大数据（数据分析岗位一面面经）深圳联通大数据分析面经

相关问答

如何将熊猫数据帧的第n行提取为熊猫数据帧？熊猫数据帧绘图将熊猫数据帧从宽到长 Python熊猫数据帧加入两个数据帧[复制]Pyspark-将数据帧写入2个不同的csv文件

相关工具

熊猫Flash播放器大块头微信消息 jQuery CSV 方块计数器 Apache Commons CSV

相关文档

大数据入门指南变现猫接入文档 v1.4 大数据实验手册大数据学习指南数据挖掘十大算法