当前位置: 首页 > 知识库问答 >
问题:

谷歌云数据流工作者的自定义虚拟机映像

柴兴贤
2023-03-14

浏览了Google云数据流文档后,我的印象是worker VM运行一个特定的预定义Python 2.7环境,没有任何改变的选项。是否可以为工作人员提供自定义VM映像(使用库、特定应用程序需要的外部命令构建)。可以在Gcloud数据流上运行Python 3吗?

共有3个答案

齐铭
2023-03-14

您不能为工作人员提供自定义VM映像,但可以提供设置。用于运行自定义命令和安装库的py文件。

您可以找到有关设置的更多信息。py文件在此:https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

巫化
2023-03-14

Python 3支持到Apache Beam状态:https://beam.apache.org/roadmap/python-sdk/#python-3-support

弓温书
2023-03-14

2021更新

到今天为止,这两个问题的答案都是肯定的。

  1. 数据流支持Python 3。
  2. Dataflow支持自定义容器映像,请参阅SO答案和文档页。

是否可以为工作人员提供自定义VM映像(使用库、特定应用程序需要的外部命令构建)。可以在Gcloud数据流上运行Python 3吗?

这两个问题都是否定的。您可以为数据流作业配置计算引擎实例计算机类型和磁盘大小,但无法配置已安装的应用程序之类的内容。目前,Apache Beam不支持Python 3。十、

参考文献:

  1. https://cloud.google.com/dataflow/pipelines/specifying-exec-params
  2. https://issues.apache.org/jira/browse/BEAM-1251
  3. https://beam.apache.org/get-started/quickstart-py/
 类似资料:
  • 我想运行一个Python谷歌云数据流作业与自定义Docker图像。 根据文件,这应该是可能的:https://beam.apache.org/documentation/runtime/environments/#testing-自定义图像 为了尝试此功能,我使用此公共repo中的文档中的命令行选项设置了基本wordcount示例管道https://github.com/swartchris8/b

  • 当我运行Dataflow作业时,它会将我的小程序包(setup.py或requirements.txt)上传到Dataflow实例上运行。 但是数据流实例上实际运行的是什么?我最近收到了一个stacktrace: 但从理论上讲,如果我在做,这意味着我可能没有运行这个Python补丁?你能指出这些作业正在运行的docker图像吗,这样我就可以知道我使用的是哪一版本的Python,并确保我没有在这里找

  • 我正在尝试使用谷歌云数据流将谷歌PubSub消息写入谷歌云存储。PubSub消息采用json格式,我要执行的唯一操作是从json到parquet文件的转换。

  • 我正在尝试使用Google Cloud Dataflow(Python SDK)将Google PubSub消息写入Google Cloud Storage。这些消息以json格式进入PubSub,我必须定义一个模式才能将它们写入Google Cloud Storage中的拼花格式。 根据其他用户的建议,我开始着手这项任务,特别是查看这个和这个来源。< br >第一个不是我想要做的,因为它将更改应

  • 我正在运行数据流作业从气流。我需要说我是气流的新手。数据流(从气流运行)正在成功运行,但我可以看到气流在获得工作状态时遇到了一些问题,我收到了无限的消息,比如: 谷歌云数据流作业尚不可用。。 以下是将所有步骤添加到数据流后的日志(我将{project ectID}和{jobID}放在它所在的位置): 你知道这是什么原因吗?我找不到与此问题相关的任何解决方案。我应该提供更多信息吗? 这是我在DAG中

  • 我正在使用dataflow处理存储在GCS中的文件,并写入Bigquery表。以下是我的要求: 输入文件包含events记录,每个记录属于一个EventType; 需要按EventType对记录进行分区; 对于每个eventType输出/写入记录到相应的Bigquery表,每个eventType一个表。 每个批处理输入文件中的事件各不相同; 我正在考虑应用诸如“GroupByKey”和“Parti