当前位置: 首页 > 知识库问答 >
问题:

我可以附加到一个压缩流与熊猫?

毋弘光
2023-03-14

我知道,通过将compression='gzip'参数传递给pd.to_csv(),我可以将数据文件保存到压缩的CSV文件中。

my_df.to_csv('my_file_name.csv', compression='gzip')
my_df.to_csv('my_file_name.csv', mode='a', index=False)
my_df.to_csv('my_file_name.csv', mode='a', index=False, compression='gzip')

这个问题是由我用熊猫处理一个大型CSV文件引起的。我需要产生压缩的CSV输出,并且正在将CSV文件分块处理成一个DataFrame,这样我就不会遇到MemoryError。因此,对我来说,最符合逻辑的做法是将每个输出DataFrame块添加到一个压缩的zip文件中。

我使用的是Python 3.4和Pandas 0.16.1。

共有1个答案

艾俊晖
2023-03-14

最新答案:我和熊猫一起工作1.2.4

代码

df.to_csv('test.csv', mode='a', compression='gzip')
new_df = pd.read_csv('test.csv', compression='gzip')

df.shape[0] # 1x
new_df.shape[0] # 2x
 类似资料:
  • 问题内容: 例如,我想在一个响应中下载一个zip文件和一个csv文件。除了将这两个文件压缩到一个zip文件中之外,还有其他方法吗? 问题答案: 尽管ServletResponse并不是要这样做,但我们可以通过编程方式对其进行调整,以发送多个文件,除IE以外的所有客户端浏览器似乎都可以正确处理。下面给出了一个示例代码片段。 在IE浏览器中将无法使用。注意:不包括尝试捕获块

  • 我在提取.7z受保护的文件时收到此错误 org . tuka ani . xz . corruptedinputexception:压缩数据损坏 我正在使用这个代码 如果你知道有什么问题,请告诉我。提前谢谢

  • Apache Commons压缩库的重点似乎是编写一个TarchiveOutputStream的TarchiveEntry。但是看起来创建TarArchiveEntry的唯一方法是使用File对象。 有没有什么办法我可以做这样的事情: 或者,更好的....

  • 问题内容: 我正在使用一些非常沉重的AJAX,其中许多数据都从客户端到服务器。在发送到服务器之前,如何压缩数据(主要是纯文本)? 以及如何在服务器端解压缩数据? 问题答案: jSEND似乎完全可以做到这一点。有人用过吗? 断开的链接已删除:导致垃圾邮件登陆页面@ jsend.org

  • 我试图在pandas中使用从FTP服务器读取压缩文件。zip文件只包含一个文件,这是必需的。 这是我的密码: 我得到这个错误: 我在pandas 18.1和19.0中都遇到了这个错误。我是否遗漏了什么,或者这可能是一个错误?

  • 我正在读一个带有如下浮点数的CSV: 并导入到数据框中,然后将此数据框写入新位置 现在,此