当前位置: 首页 > 知识库问答 >
问题:

如何自定义GCP数据流模板?

傅琦
2023-03-14

共有1个答案

连文栋
2023-03-14

我想我们正处于要么全有要么全无的境地。唯一不需要创建自己模板的定制是通过参数公开的,并且参数不接受pTransforms。

由于需要修改所接收的pub/sub消息,因此需要创建自己的PTransform,将其集成到管道中,并生成相关的模板。

鉴于这只是一个很小的添加,最好的调用是克隆模板源并将其复制到您自己的本地Beam项目中(或从克隆的项目中生成)。!!不要修改示例模板本身。这里只有代码示例!!按照文档中的说明生成模板。你这么叫很好。

 类似资料:
  • 好吧,我肯定是遗漏了什么。我需要什么来作为模板准备管道?当我试图通过这些说明将模板暂存时,它会运行模块,但不会暂存任何内容。,它看起来像预期的那样工作,没有出现错误,但是我没有看到任何文件实际添加到bucket位置,在我的--template_位置中侦听。我的python代码应该出现在那里吗?我想是这样吧?我已经确保安装了所有的beam和google cloud SDK,但也许我遗漏了什么?要准备

  • 我尝试在Google Cloud数据流中运行Apache Beam管道(Python),由Google Cloud Coomposer中的DAG触发。 我的dags文件夹在各自的GCS桶中的结构如下: setup.py是非常基本的,但是根据Apache Beam文档和SO上的答案: 在DAG文件(dataflow.py)中,我设置了选项并将其传递给Dataflow: 在管道文件(pipeline.

  • 使用标准的GCP提供的存储/文本文件来发布Sub数据流模板,但是尽管我已经设置了#workernodes eq 1,但是对于下游组件来说,处理的消息吞吐量“太高”。 在 Pub/Sub 中的消息事件上运行的 Cloud 函数会命中 GCP 配额,并且使用 CloudRun,我在开始时收到一堆 500、429 和 503 个错误(由于步进突发率)。 有没有办法控制数据流的处理速率?需要获得更软/更慢

  • 基本问题是试图使用自定义数据模型来创建用于deeplearning4j网络的DataSetIterator。 我试图使用的数据模型是一个java类,它包含一系列双打,这些双打是从特定股票的报价中创建的,例如时间戳、打开、关闭、高、低、卷、技术指标1、技术指标2等。我查询了一个internet源示例(也是来自同一站点的其他几个指标),它提供了json字符串,我将这些字符串转换为我的数据模型,以便于访

  • TL;DR:如何选择一个WP REST API自定义endpoint的响应的每一点信息? 长版 如果我想使用WP REST API构建自定义endpoint - 从不同的帖子类型发送特定帖子数据 - 按照手册中的示例,我得到了这个: 但是get_post()函数没有返回一些数据,如果您希望在页面中显示帖子,这些数据是非常有用的(例如类别id、特色图片)。那么,我如何构建一个自定义endpoint来

  • 我有一个流数据集,阅读Kafka并试图写到CSV 有没有一种方法可以通过编程模式和结构化流数据集来实现这一点?