当前位置: 首页 > 知识库问答 >
问题:

用Python从DataFlow中读取snappy或lzo压缩文件

通令
2023-03-14
    null

共有1个答案

缪朝
2023-03-14

我不认为今天有任何建造的方式来做这件事。Python beam支持Gzip、bzip2和deflate。

选项1:读取整个文件并手动解压

  1. 创建一个自定义源以生成文件名列表(即,通过列出一个目录从管道选项中添加种子),并将其作为记录发出
  2. 在下面的ParDo中,手动读取每个文件并解压缩它。如果已将数据存储在GCS库中,则需要使用GCS库来读取GCS文件。
 类似资料:
  • 问题内容: 使用python从gz压缩的文本文件中读取一行很容易,而无需完全提取该文件?我有一个大约200mb的text.gz文件。当我提取它时,它变成7.4gb。这不是我必须阅读的唯一文件。对于整个过程,我必须读取10个文件。尽管这将是一个顺序的工作,但我认为在不影响全部信息的情况下做到这一点将是明智之举。我什至不知道有可能。如何使用python完成?我需要逐行阅读文本文件。 问题答案: 您是否

  • 我正试图从压缩的csv文件中获取数据。有没有一种方法可以做到这一点,而不解压整个文件?如果没有,我如何解压文件并有效地读取它们?

  • 我试图使用火花SQL编写文件。 默认情况下,Spark SQL支持,但也支持其他压缩格式,如和。 这些压缩格式之间有什么区别?

  • 然后我在两个压缩文件上运行以下管道。 这将导致我的bucket的以下状态: 如您所见,由pbzip2压缩的未压缩文件太小,无法正确解压缩。似乎只有第一个块被解压缩,其余的都被丢弃了。 我用pbzip2压缩了很多文件,我希望不改变它们的压缩方式。 对如何解决这个问题有什么建议吗?这甚至可以用于使用pbzip2压缩的文件吗?

  • 我在S3中有一堆快速压缩的服务器日志,我需要在Elastic MapReduce上使用流式处理它们。如何告诉Amazon和Hadoop日志已经被压缩(在它们被拉入HFS之前!)以便它们可以在发送到流式映射器脚本之前被解压缩? 我能找到的唯一文档是:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopData

  • 问题内容: 我想从csv(文本)文件逐行读取(在Python 2.7中),该文件是7z压缩的。我不想解压缩整个(大)文件,而是流线。 我尝试失败。我收到数据错误。请注意,此代码尚未逐行读取: 输出: 问题答案: 这将允许您迭代行。它部分源自我在另一个问题的答案中找到的一些代码。 在该时间点(),该模块未实现允许将存档成员作为字节流或字符流读取的API-其类仅提供了一次解压缩并返回成员中未压缩数据的