我有一个dataflow工作,它从几个Google Pub/Sub主题中提取消息,对这些消息中包含的单个元素进行一些并行处理,然后将集合传递给各种资源进一步使用。我想把一个Stackdriver仪表板放在一起,显示每个主题处理了多少个单独的元素。每个ParDo步骤输出一个pCollection。
我已经使用ElementCount设置了一个仪表板,但我只能按作业进行筛选,而不能按步骤进行筛选。如果我在使用ElementCount生成的图表中的线上默写,我可以看到每一步的计数。实际上,这些指标似乎正在报告中,因为我可以以以下方式使用gcloud命令行实用程序:
gcloud beta dataflow metrics list [jobid] --filter ElementCount
...
name:
context:
original_name: extract_value_topic_1/Map-out0-ElementCount
output_user_name: extract_value_topic_1/Map-out0
name: ElementCount
origin: dataflow/v1b3
scalar: 7000
updateTime: '2017-05-03T18:13:22.804Z'
---
name:
context:
original_name: extract_value_topic_2/Map-out0-ElementCount
output_user_name: extract_value_topic_2/Map-out0
name: ElementCount
origin: dataflow/v1b3
scalar: 12000
updateTime: '2017-05-03T18:13:22.804Z'
不幸的是,您目前无法在度量标签上构建带有筛选器的仪表板。正如您所注意到的,新的(Beta版)Metric Explorer提供了过滤功能,Stackdriver团队也在积极地为仪表板图表提供该功能。如果我从Stackdriver团队收到任何进一步的更新或细节,我将继续跟进。--安德烈
a)从有界源读取,在数据流中运行时,PCollection的大小可以有多大?b)当处理大数据时,假设PCollection的大约5000万个数据试图查找另一个PCollection的大约1000万个数据。这能做到吗?beam/dataflow的性能有多好?在一个ParDo函数中,假设我们只能传递一个输入并返回一个输出,如何基于两个输入数据集执行查找?我试图查看Dataflow/beam,类似于任何
我在GCP数据流/Apache Beam中有一个PCollection。我需要将“按N”组合起来,而不是逐个处理它。类似于分组(N)。因此,在有界处理的情况下,它将按10个项目进行分组,最后一批是剩下的任何项目。这在Apache Beam中可能吗?
是否可以为每个测试方法指定来自DataProvider的数据。我做过这样的东西。 有没有更好的方法?我可以为两种测试方法指定一个数据集吗?谢谢
下面是我的流处理的伪代码。 上面的代码流程正在创建多个文件,我猜每个文件都有不同窗口的记录。例如,每个文件中的记录都有时间戳,范围在30-40秒之间,而窗口时间只有10秒。我预期的输出模式是将每个窗口数据写入单独的文件。对此的任何引用或输入都会有很大帮助。
问题内容: 我只是通过跟随有关Udemy的教学视频开始学习Go的,我尝试按如下方式打印当前时间 我得到一个很长的文本作为输出如下 我原本希望只在其后加上a ,这应该是结尾。预期的输出如下所示,也如本教程视频中所示。但是对我来说,结果的形式要长得多。 问题是,为什么同一个命令在教师的程序和我的程序之间返回不同的格式?为什么没有设置特定的格式,不应该返回一种格式? 问题答案: 问题是,为什么同一条命令
我试图从一个数据流作业中运行两个分离的管道,类似于下面的问题: 一个数据流作业中的并行管道 如果我们使用单个p.run()使用单个数据流作业运行两个分离的管道,如下所示: 我认为它将在一个数据流作业中启动两个独立的管道,但它会创建两个包吗?它会在两个不同的工人上运行吗?