当前位置: 首页 > 知识库问答 >
问题:

我如何使用dask。当我有bigdata时,将dataframe转换为\u csv

越嘉石
2023-03-14

我只想用dask保存CSV文件。我得到了超过30GB的数据。读取csv没有问题。但下班后我需要将其保存为CSV文件。它不起作用。帮助我

import dask.dataframe as dd
df = dd.read_csv("E:/bigdata/H_2015_04.dat", sep="|", header=None)
df.to_csv("E:/bigdata/1.csv")

有如下错误消息。。

文件"熊猫/_libs/parsers.pyx",第894行,在熊猫中。_libs.parsers.TextReader.read文件"熊猫/_libs/parsers.pyx",第916行,在熊猫中。_libs.parsers.TextReader。_read_low_memory文件"熊猫/_libs/parsers.pyx",第993行,在熊猫中。_libs.parsers.TextReader。_read_rows文件"熊猫/_libs/parsers.pyx",第1122行,在熊猫中。_libs.parsers.文本阅读器。_convert_column_data文件“熊猫/_libs/parsers.pyx”,第1167行,在熊猫中。_libs.parsers.文本阅读器。_convert_tokens文件“熊猫/_libs/parsers.pyx”,第1215行,在熊猫中。_libs.parsers.文本阅读器。_convert_with_dtype文件"熊猫/_libs/parsers.pyx",第1905行,在熊猫中。_libs.parsers._try_int64内存错误

共有1个答案

朱硕
2023-03-14

文件大小导致内存错误。您可以使用以下方法一次读取部分数据

reader = pd.read_csv(file_path, iterator=True)
#Read lines 0 to 1000
chunk = reader.get_chunk(1000)
#Read lines 1000 to 2000
chunk = reader.get_chunk(1000)
 类似资料:
  • 问题内容: 我正在尝试将数据框的一栏转换为日期时间。在这里的讨论之后,https://github.com/dask/dask/issues/863我尝试了以下代码: 但是我收到以下错误消息 我到底应该把什么放在meta之下?我应该将所有列的字典放在df中还是仅将“时间”列放在字典中?我应该放什么类型?我已经尝试过dtype和datetime64,但到目前为止它们都没有工作。 谢谢,感谢您的指导,

  • 如何使用用户指定的架构将dataframe转换为Avro格式?

  • 我知道PKCS#7=证书+可选原始数据+PKCS#1格式的签名

  • 有人能分享一下如何将转换为吗?

  • 问题内容: 我有一个XML文件 我必须将此XML转换为CSV文件。我听说我们可以使用XSLT进行此类操作。如何在Java中(带有/不带有XSLT)执行此操作? 问题答案: 用伪代码: 这个快速的小循环将在每行的末尾写一个逗号,但是我敢肯定您可以弄清楚如何删除它。 为了实际解析XML,我建议使用JDOM。它具有非常直观的API。

  • 问题内容: 我想在Golang中将int转换为hex。在strconv中,有一种将字符串转换为十六进制的方法。是否有类似的方法从int获取十六进制字符串? 问题答案: 由于hex是Integer文字,因此您可以使用,和或格式向fmt包询问该整数的字符串表示形式。参观游乐场 输出: