问题：

当有多个源时，Google Dataflow不能同时读取超过3个输入压缩文件

黎苑博

2023-03-14

背景：我有30天的数据在30个单独的压缩文件存储在谷歌存储。我必须将它们写到同一个表中30个不同分区的BigQuery表中。每个压缩文件的大小约为750MB。

我今天在Google Dataflow上对相同的数据集做了两个实验。

共有1个答案

越伯寅

2023-03-14

每个压缩文件将由单个工作人员读取。使用numWorkers管道选项可以增加作业的初始工人数，使用maxNumWorkers管道选项可以设置可放大的最大工人数。

类似资料：

读取压缩在一个文件中的多个csv文件

我在on文件夹的几个zip文件中有几个csv文件，例如： null zip中的一个csv是这样工作的：你知道如何优化这个循环吗？
压缩单列多个不同形状的文件

我有200个不同的文件，我需要把一列接一列的内容压缩成一个文件。这200个文件位于一个目录中，因此我尝试了以下脚本。但它抛出以下值错误，因为每个文件的形状都不同。我想有一些解决办法。非常感谢。这是一个错误，
读取多个扫描仪输入

问题内容：我正在尝试做的是拥有多个具有不同变量的输入。每个变量将是不同方程式的一部分。我正在寻找一种方法来做，我想我有一个主意。我只想知道这是否合法，也许还有更好的方法。问题答案：如果每个输入都问相同的问题，则应使用循环和输入数组：或者如Chip所建议的，您可以从一行中解析输入：您在正确的轨道上，所做的工作正常。这只是一种更好，更灵活的处理方式。
Apache camel同时读取两个.csv文件

通过更改两个域模型的包，解决了我在前面的链接中发布的上述错误，Apache camel同时处理两个csv文件。但是，它给出了另一个错误，并回滚了对两个.csv文件的处理。这两个.csv文件都有两个单独的处理器用于处理交换。错误:[#2012-06-12T10:23:54.651+1000SevereGlassFish3.0.1org.apache.camel.processor.DefaulT
Python 3，从/向gzip文件读取/写入压缩的json对象

问题内容：对于Python3，我遵循@MartijnPieters的代码：但这会导致错误：有什么想法吗？问题答案：这里有四个转换步骤。 Python数据结构（嵌套字典，列表，字符串，数字，布尔值）包含该数据结构（“ JSON”）的序列化表示形式的Python字符串包含该字符串表示形式的字节列表（“ UTF-8”）包含先前字节列表（“ gzip”）表示形式的字节列表因此，让我们一步
在Hadoop MapReduce中，有可能有多个不同映射器的多个输入吗？

在Hadoop MapReduce中是否有可能使用多个不同的映射器有多个输入？每个映射器类都在一组不同的输入上工作，但它们都会发出由同一个减速器使用的键值对。请注意，我不是在这里谈论链接映射器，我是在谈论并行运行不同的映射器，而不是顺序运行。

当有多个源时，Google Dataflow不能同时读取超过3个输入压缩文件

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档