谷歌云数据流是基于ApacheBeam的。beam并不正式支持java11。但是当我在GCP上运行一个数据流作业并检查该作业作为工作线程使用的vm实例时。我发现容器映像是“gcr.io/cloud dataflow/v1beta3/beam-java11-batch:beam-2.23.0”。那么,在运行数据流时,数据流是否使用java11作为java运行时?为什么不使用java8?是否存在bug风险?
“spec”:{“containers”:[{“args”:[“--physem_limit_pct=70”、“--log_file=/var/log/dataflow/boot json.log”、“--log_dir=/var/log/dataflow”、“--work_dir=/var/opt/google/dataflow”、“--tmp_dir=/var/opt/google/tmp”、“--endpoint=https://dataflow.googleapis.com/“],“图像”:“gcr.io/cloud dataflow/v1beta3/beam-java11-batch:beam-2.23.0”,
“Dataflow Runner”(Apache Beam的一部分,它将Beam管道转换为Dataflow的表示并提交作业)检测用于提交作业的Java版本,并尝试匹配它。因此,如果您使用Java11启动管道,那么选择的工作程序将是Java11。
您可以通过传递--workerHarnessContainerImage
标志来手动选择容器。这是不“支持”的,因为它很容易导致作业以数据流无法控制的方式失败。
我正在开发一个物联网应用程序,需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时,我在日志文件中发现错误,我的项目没有足够的CPU配额来运行应用程序。 所以我想使用谷歌云数据流SDK读取流数据。 请有人告诉我在哪里可以找到使用Google Cloud Dat
有人能帮我做这个吗?
目前,我们正在库伯内特斯上使用自己安装的气流版本,但想法是在云作曲家上迁移。我们使用Airflow运行数据流作业,使用DataFlowJavaoperator的自定义版本(使用插件),因为我们需要执行java应用程序,而java应用程序不是在jar中自包含的。因此,我们基本上运行一个bash脚本,该脚本使用以下命令: 所有jar依赖项都存储在所有辅助角色之间的共享磁盘中,但是在Composer中缺
我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker,而不按照以下说明从源安装所有依赖项: https://cloud.google.com/dataflow/pipelines/dependencies-python 我本以为docker容器会有一个标志,它已经位于google容器引擎中。
我们在datalab中运行了一个Python管道,它从google云存储(导入google.datalab.storage)中的存储桶中读取图像文件。最初我们使用DirectRunner,效果很好,但现在我们尝试使用DataflowRunner,并且出现导入错误。即使在管道运行的函数中包含“import google.datalab.storage”或其任何变体,也会出现错误,例如“没有名为'da
Posthoc将FFMPEG连接到opencv-python二进制文件,用于Google云数据流作业 根据这个问题,可能会拉出一个自定义docker图像,但我找不到任何关于如何使用DataFlow进行处理的文档。 https://issues.apache.org/jira/browse/beam-6706?focusedcommentid=16773376&page=com.atlassian.