在云数据流中使用Beam SDK

李新霁

2023-03-14

我们目前正在使用Google的云数据流SDK（1.6.0）在GCP中运行数据流作业，但是，我们正在考虑迁移到Apache Beam SDK（0.1.0）。我们仍将使用数据流服务在GCP中运行我们的作业。有没有人经历过这一转变并提出了建议？这里是否存在任何兼容性问题？GCP是否鼓励这种做法？

共有2个答案

宗政功

2023-03-14

现在可以在数据流上运行Beam SDK管道。见：

https://beam.apache.org/documentation/runners/dataflow/

您需要向pom添加依赖项。xml，可能还有该页上解释的一些命令行选项。

孟跃

2023-03-14

正式地说，数据流还不支持Beam（尽管这肯定是我们正在努力的方向）。我们建议继续使用Dataflow SDK，尤其是在SLA或支持对您很重要的情况下。这就是说，我们的测试表明Beam在数据流上运行，尽管这可能会在任何时候中断，但当然欢迎您自己冒险尝试。

更新：自Dataflow SDK 2.0发布以来，Dataflow SDK现在基于Beam(https://cloud.google.com/dataflow/release-notes/release-notes-java-2).云数据流当前支持Beam和Dataflow SDK。

类似资料：

使用Google云数据流SDK读取流数据

我正在开发一个物联网应用程序，需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时，我在日志文件中发现错误，我的项目没有足够的CPU配额来运行应用程序。所以我想使用谷歌云数据流SDK读取流数据。请有人告诉我在哪里可以找到使用Google Cloud Dat
云数据流中失败的作业：启用数据流API

我当前正尝试将Dataflow与pub/sub一起使用，但出现以下错误：工作流失败。原因:(6E74E8516C0638CA):刷新凭据时出现问题。请检查：1。已为项目启用Dataflow API。2.您的项目有一个机器人服务帐户:service-[project number]@dataflow-service-producer-prod.iam.gserviceAccount.com应该可以
谷歌云数据流作业尚不可用。。在气流中

我正在运行数据流作业从气流。我需要说我是气流的新手。数据流（从气流运行）正在成功运行，但我可以看到气流在获得工作状态时遇到了一些问题，我收到了无限的消息，比如：谷歌云数据流作业尚不可用。。以下是将所有步骤添加到数据流后的日志（我将{project ectID}和{jobID}放在它所在的位置）：你知道这是什么原因吗？我找不到与此问题相关的任何解决方案。我应该提供更多信息吗？这是我在DAG中
在Flink流中使用静态数据集丰富数据流

我正在编写一个Flink流程序，其中我需要使用一些静态数据集（信息库，IB)来丰富用户事件的数据流。对于例如。假设我们有一个买家的静态数据集，并且我们有一个事件的clickstream，对于每个事件，我们要添加一个布尔标志，指示事件的实施者是否是买家。另一个选择可以是使用托管操作员状态来存储购买者设置，但是我如何保持按用户id分配的该状态，以避免在单个事件查找中使用网络I/O呢？在内存状态后端
用Azure服务总线使用Spring云数据流

我试图找到一些Spring Cloud数据流和Azure服务总线设置的示例。. 我找到了https://github.com/microsoft/spring-cloud-azure/tree/master/spring-cloud-azure-stream-binder/spring-cloud-azure-servicebus-topic-stream-binder，但它仍然在RC中，我没有看
使用docker解决google云数据流依赖

我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker，而不按照以下说明从源安装所有依赖项： https://cloud.google.com/dataflow/pipelines/dependencies-python 我本以为docker容器会有一个标志，它已经位于google容器引擎中。

在云数据流中使用Beam SDK

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档