当前位置: 首页 > 知识库问答 >
问题:

Google云数据流卡顿

朱通
2023-03-14

有人能帮我做这个吗?

共有1个答案

后凯捷
2023-03-14

在我的例子中,我使用的Apache Beam SDK版本2.9.0也有同样的问题。

我使用了setup.py,并通过加载requirements.txt文件的内容来动态填充设置字段“install_requires”。如果您使用Directrunner可以,但是dataflowrunner对于本地文件的依赖关系过于敏感,因此放弃这种技术并将依赖关系从requirements.txt硬编码到“install_requireds”为我解决了一个问题。

如果你坚持这样做,试着调查你的依赖关系,并尽可能地减少它们。有关帮助,请参阅管理Python管道依赖项文档主题。避免在本地文件系统上使用复杂或嵌套的代码结构或依赖项。

 类似资料:
  • Posthoc将FFMPEG连接到opencv-python二进制文件,用于Google云数据流作业 根据这个问题,可能会拉出一个自定义docker图像,但我找不到任何关于如何使用DataFlow进行处理的文档。 https://issues.apache.org/jira/browse/beam-6706?focusedcommentid=16773376&page=com.atlassian.

  • 我正在开发一个物联网应用程序,需要从PubSub主题读取流数据。我想使用Google云数据流SDK读取这些数据。我正在使用Java 1.8 我正在使用谷歌云平台的试用版。当我使用PubSubIO时。Read方法读取流数据时,我在日志文件中发现错误,我的项目没有足够的CPU配额来运行应用程序。 所以我想使用谷歌云数据流SDK读取流数据。 请有人告诉我在哪里可以找到使用Google Cloud Dat

  • 在我的新公司,我是一名数据工程师,负责构建google cloud platform(GCP)批处理ETL管道。我的团队的数据科学家最近给了我一个数据模型(用Python3.6编写的.py文件)。 数据模型有一个主函数,我可以调用它并获得一个dataframe作为输出,我打算将这个dataframe附加到一个bigquery表中。我是否可以只导入这个主函数,并使用apache beam(Dataf

  • 我正在尝试使用DataFlow(Java)将数据从云存储插入到Big Query中。我可以批量上传数据;但是,我想要设置一个流式上传代替。因此,当新对象添加到我的bucket时,它们将被推送到BigQuery。 我已经将PipelineOptions设置为流,并且在GCP控制台UI中显示dataflow管道是流类型的。bucket中的初始文件/对象集被推送到BigQuery。 但是当我向桶中添加新

  • 我曾经使用过SpringCloudDataFlow、rabbitmq和kafka,但我想知道是否可以使用GooglePub/sub安装scdf。 我不想创建一个流(新的应用程序spring cloud stream),将源或接收器连接到gcp,我希望google pub/sub over spring cloud data flow server用作中间消息代理。 有什么建议吗?