问题：

Google云数据流依赖项

吕越彬

2023-03-14

Posthoc将FFMPEG连接到opencv-python二进制文件，用于Google云数据流作业

根据这个问题，可能会拉出一个自定义docker图像，但我找不到任何关于如何使用DataFlow进行处理的文档。

https://issues.apache.org/jira/browse/beam-6706？focusedcommentid=16773376&page=com.atlassian.jira.plugin.system.issuetabpanels%3acomment-tabpanel#comment-16773376

但是，在运行该示例时，我得到一个错误，即没有名为osgeo.gdal的模块。

对于纯python依赖项，我也尝试传递--requirements_file参数，但是仍然得到一个错误:PIP安装失败，包:-r

我可以找到向apache_beam（但不是向dataflow）添加依赖项的文档，根据我对--requirements_file和--setup_file的测试，apache_beam指令似乎不起作用

共有1个答案

莘翰采

2023-03-14

这在评论中得到了回答，为了清晰起见，在这里重写：

在Apache Beam中，您可以修改setup.py文件，同时在启动时每个容器运行一次。该文件允许您在SDK线程开始接收来自Runner线程的命令之前执行任意命令。

完整的示例可以在Apache Beam Repo中找到。

类似资料：

使用docker解决google云数据流依赖

我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker，而不按照以下说明从源安装所有依赖项： https://cloud.google.com/dataflow/pipelines/dependencies-python 我本以为docker容器会有一个标志，它已经位于google容器引擎中。
Google云数据流卡顿

有人能帮我做这个吗？
使用Google云数据流SDK读取流数据

我正在开发一个物联网应用程序，需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时，我在日志文件中发现错误，我的项目没有足够的CPU配额来运行应用程序。所以我想使用谷歌云数据流SDK读取流数据。请有人告诉我在哪里可以找到使用Google Cloud Dat
Google云数据流工作线程
Google云平台数据ETL批处理：云函数数据流

在我的新公司，我是一名数据工程师，负责构建google cloud platform(GCP)批处理ETL管道。我的团队的数据科学家最近给了我一个数据模型（用Python3.6编写的.py文件）。数据模型有一个主函数，我可以调用它并获得一个dataframe作为输出，我打算将这个dataframe附加到一个bigquery表中。我是否可以只导入这个主函数，并使用apache beam（Dataf
从Google云存储流数据流到Big Query

我正在尝试使用DataFlow（Java）将数据从云存储插入到Big Query中。我可以批量上传数据；但是，我想要设置一个流式上传代替。因此，当新对象添加到我的bucket时，它们将被推送到BigQuery。我已经将PipelineOptions设置为流，并且在GCP控制台UI中显示dataflow管道是流类型的。bucket中的初始文件/对象集被推送到BigQuery。但是当我向桶中添加新

Google云数据流依赖项

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档