Posthoc将FFMPEG连接到opencv-python二进制文件,用于Google云数据流作业
根据这个问题,可能会拉出一个自定义docker图像,但我找不到任何关于如何使用DataFlow进行处理的文档。
https://issues.apache.org/jira/browse/beam-6706?focusedcommentid=16773376&page=com.atlassian.jira.plugin.system.issuetabpanels%3acomment-tabpanel#comment-16773376
但是,在运行该示例时,我得到一个错误,即没有名为osgeo.gdal的模块。
对于纯python依赖项,我也尝试传递--requirements_file
参数,但是仍然得到一个错误:PIP安装失败,包:-r
我可以找到向apache_beam(但不是向dataflow)添加依赖项的文档,根据我对--requirements_file
和--setup_file
的测试,apache_beam指令似乎不起作用
这在评论中得到了回答,为了清晰起见,在这里重写:
在Apache Beam中,您可以修改setup.py文件,同时在启动时每个容器运行一次。该文件允许您在SDK线程开始接收来自Runner线程的命令之前执行任意命令。
完整的示例可以在Apache Beam Repo中找到。
我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker,而不按照以下说明从源安装所有依赖项: https://cloud.google.com/dataflow/pipelines/dependencies-python 我本以为docker容器会有一个标志,它已经位于google容器引擎中。
有人能帮我做这个吗?
我正在开发一个物联网应用程序,需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时,我在日志文件中发现错误,我的项目没有足够的CPU配额来运行应用程序。 所以我想使用谷歌云数据流SDK读取流数据。 请有人告诉我在哪里可以找到使用Google Cloud Dat
在我的新公司,我是一名数据工程师,负责构建google cloud platform(GCP)批处理ETL管道。我的团队的数据科学家最近给了我一个数据模型(用Python3.6编写的.py文件)。 数据模型有一个主函数,我可以调用它并获得一个dataframe作为输出,我打算将这个dataframe附加到一个bigquery表中。我是否可以只导入这个主函数,并使用apache beam(Dataf
我正在尝试使用DataFlow(Java)将数据从云存储插入到Big Query中。我可以批量上传数据;但是,我想要设置一个流式上传代替。因此,当新对象添加到我的bucket时,它们将被推送到BigQuery。 我已经将PipelineOptions设置为流,并且在GCP控制台UI中显示dataflow管道是流类型的。bucket中的初始文件/对象集被推送到BigQuery。 但是当我向桶中添加新