问题：

使用Python2.7读取压缩的csv文件时出错

钱凌

2023-03-14

我在读取压缩的csv文件时出错。错误如下：“zlib.error：解压缩时错误-3：设置的距离无效”

代码：

filename = 'testfile.gz'
with gzip.open(filename, 'rb') as reader:
    for line in reader:
        print(line)

我在文件上尝试了Gunzip，它没有任何问题。我使用Gunzip-t。它给rc 0。

共有1个答案

华聪

2023-03-14

这个似乎是1.2.7-15版zlib库中的一个错误

$ rpm -qa | grep zlib
zlib-1.2.7-15.el7.x86_64

我将其更新为1.2.7-17，问题得到了解决。

$ rpm -qa | grep zlib
zlib-1.2.7-17.el7.x86_64

类似资料：

Spark 2.1.0：读取压缩的csv文件

我正在尝试将压缩的csv文件（.bz2）读取为数据帧。我的代码如下当我在IDE中尝试时，这是可行的。我可以读取数据并对其进行处理，但当我尝试使用maven构建数据并在命令行上运行它时，会出现以下错误我不确定我是否在这里错过了什么。读取csv文件是否有一些依赖项？根据留档，Spark 2. x. x内置了对此的支持。
在python中读取csv压缩文件

我正试图从压缩的csv文件中获取数据。有没有一种方法可以做到这一点，而不解压整个文件？如果没有，我如何解压文件并有效地读取它们？
读取压缩在一个文件中的多个csv文件

我在on文件夹的几个zip文件中有几个csv文件，例如： null zip中的一个csv是这样工作的：你知道如何优化这个循环吗？
使用SqlContext.Read读取Spark中的.csv文件时出错

> 我运行spark shell，如下所示： spark-shell--jars.\spark-csv2.11-1.4.0.jar；.\commons-csv-1.2.jar（我不能直接下载这些依赖项，这就是我使用--jars的原因）使用以下命令读取csv文件：在执行第一个建议的解决方案后：
读取CSV文件时Python中出错

我试图读取CSV文件，但它抛出了一个错误。我无法理解我的语法有什么问题，或者我是否需要向我的read_csv添加更多属性。我试了一下这个解决办法 UnicodeDecodeError:“utf-8”编解码器无法解码位置21中的字节0x96：起始字节也无效。但它不起作用 [错误] UnicodeDecodeError回溯（最近一次调用）pandas/_libs/解析器。大熊猫中的pyx_图书馆。解
正在读取a。csv文件比读取压缩为的相同文件更快。广州

看起来有点讽刺，但当我读2GB的时候。csv文件逐行使用BufferedReader，耗时约4.5秒。我用大约230MB的gzip压缩了文件。我使用了用BufferedReader包装的GZIPInputStream来读取。gz文件。大约用了8.5秒。我知道InputStream接口读取的是字节数据，而不是读卡器，但我认为如果一个200MB的文件加载到内存会更快。是否可以使用实现更好的性能。gz

使用Python2.7读取压缩的csv文件时出错

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档