我对使用谷歌云数据流并行处理视频感兴趣。我的工作同时使用OpenCV和tensorflow。是否可以只在docker实例中运行worker,而不按照以下说明从源安装所有依赖项:
https://cloud.google.com/dataflow/pipelines/dependencies-python
我本以为docker容器会有一个标志,它已经位于google容器引擎中。
一种解决方案是通过为非Python依赖项列出的setup.py选项发出pip安装命令。
这样做将下载manylinux轮,而不是需求文件处理阶段的源分发。
如果你有大量的视频,你将不得不承担大量的启动成本。这就是网格计算的本质。
另一方面,您可以在作业中使用比n1-标准-1机器更大的机器,从而在更少的机器上分摊下载成本,如果处理编码正确,这些机器可能会一次处理更多的视频。
2021更新
数据流现在支持自定义docker容器。您可以按照以下说明创建自己的容器:
https://cloud.google.com/dataflow/docs/guides/using-custom-containers
简而言之,Beam在dockerhub下发布容器。io/apache/beam{language}{sdk:${version}
。
在Dockerfile中,您可以使用其中一个作为基础:
FROM apache/beam_python3.8_sdk:2.30.0
# Add your customizations and dependencies
然后将此映像上传到容器注册表,如GCR或Dockerhub,然后指定以下选项:-worker_harness_container_image=$IMAGE_URI
还有bing!您有一个客户容器。
无法修改或切换默认的数据流辅助容器。您需要根据留档安装依赖项。
Posthoc将FFMPEG连接到opencv-python二进制文件,用于Google云数据流作业 根据这个问题,可能会拉出一个自定义docker图像,但我找不到任何关于如何使用DataFlow进行处理的文档。 https://issues.apache.org/jira/browse/beam-6706?focusedcommentid=16773376&page=com.atlassian.
我正在开发一个物联网应用程序,需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时,我在日志文件中发现错误,我的项目没有足够的CPU配额来运行应用程序。 所以我想使用谷歌云数据流SDK读取流数据。 请有人告诉我在哪里可以找到使用Google Cloud Dat
有人能帮我做这个吗?
在我的新公司,我是一名数据工程师,负责构建google cloud platform(GCP)批处理ETL管道。我的团队的数据科学家最近给了我一个数据模型(用Python3.6编写的.py文件)。 数据模型有一个主函数,我可以调用它并获得一个dataframe作为输出,我打算将这个dataframe附加到一个bigquery表中。我是否可以只导入这个主函数,并使用apache beam(Dataf
我正在尝试使用DataFlow(Java)将数据从云存储插入到Big Query中。我可以批量上传数据;但是,我想要设置一个流式上传代替。因此,当新对象添加到我的bucket时,它们将被推送到BigQuery。 我已经将PipelineOptions设置为流,并且在GCP控制台UI中显示dataflow管道是流类型的。bucket中的初始文件/对象集被推送到BigQuery。 但是当我向桶中添加新