我们目前正在使用Google的云数据流SDK(1.6.0)在GCP中运行数据流作业,但是,我们正在考虑迁移到Apache Beam SDK(0.1.0)。我们仍将使用数据流服务在GCP中运行我们的作业。有没有人经历过这一转变并提出了建议?这里是否存在任何兼容性问题?GCP是否鼓励这种做法?
现在可以在数据流上运行Beam SDK管道。见:
https://beam.apache.org/documentation/runners/dataflow/
您需要向pom添加依赖项。xml,可能还有该页上解释的一些命令行选项。
正式地说,数据流还不支持Beam(尽管这肯定是我们正在努力的方向)。我们建议继续使用Dataflow SDK,尤其是在SLA或支持对您很重要的情况下。这就是说,我们的测试表明Beam在数据流上运行,尽管这可能会在任何时候中断,但当然欢迎您自己冒险尝试。
更新:自Dataflow SDK 2.0发布以来,Dataflow SDK现在基于Beam(https://cloud.google.com/dataflow/release-notes/release-notes-java-2).云数据流当前支持Beam和Dataflow SDK。
我正在开发一个物联网应用程序,需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时,我在日志文件中发现错误,我的项目没有足够的CPU配额来运行应用程序。 所以我想使用谷歌云数据流SDK读取流数据。 请有人告诉我在哪里可以找到使用Google Cloud Dat
我当前正尝试将Dataflow与pub/sub一起使用,但出现以下错误: 工作流失败。原因:(6E74E8516C0638CA):刷新凭据时出现问题。请检查:1。已为项目启用Dataflow API。2.您的项目有一个机器人服务帐户:service-[project number]@dataflow-service-producer-prod.iam.gserviceAccount.com应该可以
我正在运行数据流作业从气流。我需要说我是气流的新手。数据流(从气流运行)正在成功运行,但我可以看到气流在获得工作状态时遇到了一些问题,我收到了无限的消息,比如: 谷歌云数据流作业尚不可用。。 以下是将所有步骤添加到数据流后的日志(我将{project ectID}和{jobID}放在它所在的位置): 你知道这是什么原因吗?我找不到与此问题相关的任何解决方案。我应该提供更多信息吗? 这是我在DAG中
我正在编写一个Flink流程序,其中我需要使用一些静态数据集(信息库,IB)来丰富用户事件的数据流。 对于例如。假设我们有一个买家的静态数据集,并且我们有一个事件的clickstream,对于每个事件,我们要添加一个布尔标志,指示事件的实施者是否是买家。 另一个选择可以是使用托管操作员状态来存储购买者设置,但是我如何保持按用户id分配的该状态,以避免在单个事件查找中使用网络I/O呢?在内存状态后端
我试图找到一些Spring Cloud数据流和Azure服务总线设置的示例。. 我找到了https://github.com/microsoft/spring-cloud-azure/tree/master/spring-cloud-azure-stream-binder/spring-cloud-azure-servicebus-topic-stream-binder,但它仍然在RC中,我没有看
我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker,而不按照以下说明从源安装所有依赖项: https://cloud.google.com/dataflow/pipelines/dependencies-python 我本以为docker容器会有一个标志,它已经位于google容器引擎中。