谷歌云数据流工作者的自定义虚拟机映像

柴兴贤

2023-03-14

浏览了Google云数据流文档后，我的印象是worker VM运行一个特定的预定义Python 2.7环境，没有任何改变的选项。是否可以为工作人员提供自定义VM映像（使用库、特定应用程序需要的外部命令构建）。可以在Gcloud数据流上运行Python 3吗？

共有3个答案

齐铭

2023-03-14

您不能为工作人员提供自定义VM映像，但可以提供设置。用于运行自定义命令和安装库的py文件。

您可以找到有关设置的更多信息。py文件在此：https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

巫化

2023-03-14

Python 3支持到Apache Beam状态：https://beam.apache.org/roadmap/python-sdk/#python-3-support

弓温书

2023-03-14

2021更新

到今天为止，这两个问题的答案都是肯定的。

数据流支持Python 3。
Dataflow支持自定义容器映像，请参阅SO答案和文档页。

是否可以为工作人员提供自定义VM映像（使用库、特定应用程序需要的外部命令构建）。可以在Gcloud数据流上运行Python 3吗？

这两个问题都是否定的。您可以为数据流作业配置计算引擎实例计算机类型和磁盘大小，但无法配置已安装的应用程序之类的内容。目前，Apache Beam不支持Python 3。十、

参考文献：

https://cloud.google.com/dataflow/pipelines/specifying-exec-params
https://issues.apache.org/jira/browse/BEAM-1251
https://beam.apache.org/get-started/quickstart-py/

类似资料：

如何运行Python谷歌云数据流作业与自定义Docker图像？

我想运行一个Python谷歌云数据流作业与自定义Docker图像。根据文件，这应该是可能的：https://beam.apache.org/documentation/runtime/environments/#testing-自定义图像为了尝试此功能，我使用此公共repo中的文档中的命令行选项设置了基本wordcount示例管道https://github.com/swartchris8/b
谷歌云数据流实例的图像

当我运行Dataflow作业时，它会将我的小程序包（setup.py或requirements.txt）上传到Dataflow实例上运行。但是数据流实例上实际运行的是什么？我最近收到了一个stacktrace：但从理论上讲，如果我在做，这意味着我可能没有运行这个Python补丁？你能指出这些作业正在运行的docker图像吗，这样我就可以知道我使用的是哪一版本的Python，并确保我没有在这里找
谷歌云数据流--从PubSub到Parquet

我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式，我要执行的唯一操作是从json到parquet文件的转换。
谷歌云数据流 - 来自Pub消息的Pyarrow架构

我正在尝试使用Google Cloud Dataflow（Python SDK）将Google PubSub消息写入Google Cloud Storage。这些消息以json格式进入PubSub，我必须定义一个模式才能将它们写入Google Cloud Storage中的拼花格式。根据其他用户的建议，我开始着手这项任务，特别是查看这个和这个来源。< br >第一个不是我想要做的，因为它将更改应
谷歌云数据流作业尚不可用。。在气流中

我正在运行数据流作业从气流。我需要说我是气流的新手。数据流（从气流运行）正在成功运行，但我可以看到气流在获得工作状态时遇到了一些问题，我收到了无限的消息，比如：谷歌云数据流作业尚不可用。。以下是将所有步骤添加到数据流后的日志（我将{project ectID}和{jobID}放在它所在的位置）：你知道这是什么原因吗？我找不到与此问题相关的任何解决方案。我应该提供更多信息吗？这是我在DAG中
谷歌云数据流中的动态分区？

我正在使用dataflow处理存储在GCS中的文件，并写入Bigquery表。以下是我的要求：输入文件包含events记录，每个记录属于一个EventType；需要按EventType对记录进行分区；对于每个eventType输出/写入记录到相应的Bigquery表，每个eventType一个表。每个批处理输入文件中的事件各不相同；我正在考虑应用诸如“GroupByKey”和“Parti

谷歌云数据流工作者的自定义虚拟机映像

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档