问题：

从压缩文件读取谷歌云数据流

西门靖琪

2023-03-14

我需要从压缩的GCS文件中解析json数据，因为文件扩展名是。gz，所以它应该由dataflow正确地重新组织和处理，但是作业日志打印出不可读的字符和未处理的数据。当我处理未压缩的数据时，它工作得很好。我使用以下方法映射/解析JSON：

        ObjectMapper mapper = new ObjectMapper();
        Map<String, String> eventDetails = mapper.readValue(c.element(),
                    new TypeReference<Map<String, String>>() {
                    });

你知道原因是什么吗？

Poptions pOptions = PipelineOptionsFactory.fromArgs(args).withValidation().as(Poptions.class);
Pipeline p = Pipeline.create(pOptions);
p.apply(TextIO.Read.named("ReadLines").from(pOptions.getInput()))                                          
 .apply(new Pimpression())
 .apply(BigQueryIO.Write
.to(pOptions.getOutput())
.withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_NEVER)
.withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND));
p.run();

运行时的配置：

PROJECT="myProjectId"
DATASET="myDataSetId"
INPUT="gs://foldername/input/*"
STAGING1="gs://foldername/staging" 
TABLE1="myTableName"
mvn exec:java -pl example \
-Dexec.mainClass=com.google.cloud.dataflow.examples.Example1 \
-Dexec.args="--project=${PROJECT} --output=${PROJECT}:${DATASET}.${TABLE1}   --input=${INPUT} --stagingLocation=${STAGING1} --runner=BlockingDataflowPipelineRunner"

输入文件名示例:file.gz，命令gsutil ls-l gs：//bucket/input/file.gz grep content-is的输出为：

Content-Length:     483100
Content-Type:       application/octet-stream

共有1个答案

国俊艾

2023-03-14

在私下跟进之后，我们确定此问题是由于使用了旧版本的Dataflow SDK（pre-gzip支持）造成的。由于Dataflow在alpha中，并且SDK在不断更新，因此请确保您使用的SDK版本是最新的（无论是来自Maven central还是GitHub）。

类似资料：

解压压缩文件在谷歌colab

我试图在GoogleColab中解压一个zip文件，我得到了这个错误存档：object_detection.zip未找到中央目录末尾签名。这个文件不是zipfile，或者它构成一个多部分存档的磁盘。在后一种情况下，中心目录和zipfile注释将在这个存档的最后一个磁盘上找到。解压缩：在object_detection.zip或object_detection.zip.zip中找不到zipfile
将压缩文件作为数据帧读取

我试图解压缩一个csv文件并将其传递给熊猫，这样我就可以处理这个文件了。到目前为止，我尝试的代码是：在最后一行之后，尽管python能够获取该文件，但在错误的末尾我得到了一个“不存在”。有人能告诉我我做错了什么吗？
谷歌云数据流如何使用apache束从BigQuery读取？

结果如何在工作人员之间分配？是使用查询结果创建一个表，工作人员从中读取页面，还是每个工作人员运行查询并读取不同的页面或。。。怎样
从谷歌云存储读取csv到熊猫数据框

我试图读取一个csv文件目前在谷歌云存储桶到熊猫数据帧。它显示以下错误消息：我做错了什么，我无法找到任何不涉及谷歌数据实验室的解决方案？
谷歌云数据流--从PubSub到Parquet

我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式，我要执行的唯一操作是从json到parquet文件的转换。
python：从压缩的文本文件中读取行

问题内容：使用python从gz压缩的文本文件中读取一行很容易，而无需完全提取该文件？我有一个大约200mb的text.gz文件。当我提取它时，它变成7.4gb。这不是我必须阅读的唯一文件。对于整个过程，我必须读取10个文件。尽管这将是一个顺序的工作，但我认为在不影响全部信息的情况下做到这一点将是明智之举。我什至不知道有可能。如何使用python完成？我需要逐行阅读文本文件。问题答案：您是否

从压缩文件读取谷歌云数据流

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档