当前位置: 首页 > 知识库问答 >
问题:

优化apache beam/cloud数据流启动

子车成和
2023-03-14

我用apache-beam做了几个测试,使用了自动缩放工作人员和1个工作人员,每次我看到启动时间大约为2分钟。是否有可能缩短启动时间,如果有,建议哪些最佳做法来缩短启动时间?

共有1个答案

裘光启
2023-03-14

Imho:对于云数据流这样的产品来说,两分钟是非常快的。记住,谷歌正在为你推出一个强大的大数据服务,可以自动缩放。

将这个时间与其他云供应商进行比较。我见过一些集群(Hadoop)需要15分钟才能上线。在任何情况下,您都无法控制数据流的初始化过程,因此没有什么可改进的。

 类似资料:
  • 我正在用Spring Cloud数据流实现一个流管道。 我的问题是,我手动配置了服务器中的管道(例如),如果我重置该服务器,它将丢失(以Amazon EC2实例为例,该实例可以硬重置)。

  • 我正在使用以下设置: 我的记录大小大约是2000字节。并查看“Grid-Data-Loader-Flusher”线程状态,如下所示: 线程数平均最长持续时间网格-数据-加载器-冲洗器-#100 38 4,737,793.579 30,427,862 180,036,156 数据流的最佳配置是什么? 谢谢

  • 我们的公司策略要求启用策略约束“compute.requireshieldevm”。但是,运行云数据流作业时,无法创建工作进程,错误如下: 约束/计算。项目项目违反了RequireshieldVM/************。启动磁盘的“初始化”参数。source_image'字段指定非屏蔽映像:projects/dataflow service producer prod/global/image

  • 仍在努力完成这项任务。我有以下东西: Pivotal Cloud Foundry-弹性运行时1.7。5 SCCS实例正确地连接到我的BitBucket存储库,并且它是在线的。我试图推动Spring-Cloud-dataflow-server-Cloud Foundry-1.0.0。m4.jar以下舱单: 在我的BitBucket repo中,我有以下属性文件保存环境变量:scdf dev abc。

  • 我使用的是Spring Cloud Edgware和Spring Cloud DataFlow 1.2.3。 我在contentType和originalContentType上遇到了问题,尽管我有一个解决方案,但我不明白为什么需要它。 现在需要在datasink和另一个rabbit Sink之间引入一个桥梁。新的桥流很简单: 兔源兔库 其中rabbit-source从前面提到的DataLink中

  • 我有一个数据流工作,将单个文件分割成x个记录(表)。这些流在bigQuery没有问题。 不过,我发现没有办法在结果出来后执行管道中的另一个阶段。 举个例子 根据上述内容,我希望运行以下内容: 是有无论如何运行管道的另一个部分后,up到bigQuery或这是不可能的?提前感谢。