优化apache beam/cloud数据流启动

子车成和

2023-03-14

我用apache-beam做了几个测试，使用了自动缩放工作人员和1个工作人员，每次我看到启动时间大约为2分钟。是否有可能缩短启动时间，如果有，建议哪些最佳做法来缩短启动时间？

共有1个答案

裘光启

2023-03-14

Imho：对于云数据流这样的产品来说，两分钟是非常快的。记住，谷歌正在为你推出一个强大的大数据服务，可以自动缩放。

将这个时间与其他云供应商进行比较。我见过一些集群（Hadoop）需要15分钟才能上线。在任何情况下，您都无法控制数据流的初始化过程，因此没有什么可改进的。

类似资料：

Spring Cloud数据流：版本化流

我正在用Spring Cloud数据流实现一个流管道。我的问题是，我手动配置了服务器中的管道（例如)，如果我重置该服务器，它将丢失（以Amazon EC2实例为例，该实例可以硬重置）。
点燃数据流优化

我正在使用以下设置：我的记录大小大约是2000字节。并查看“Grid-Data-Loader-Flusher”线程状态,如下所示：线程数平均最长持续时间网格-数据-加载器-冲洗器-#100 38 4,737,793.579 30,427,862 180,036,156 数据流的最佳配置是什么？谢谢
启用compute.requireShieldedVm时，Google Cloud数据流失败

我们的公司策略要求启用策略约束“compute.requireshieldevm”。但是，运行云数据流作业时，无法创建工作进程，错误如下：约束/计算。项目项目违反了RequireshieldVM/************。启动磁盘的“初始化”参数。source_image'字段指定非屏蔽映像：projects/dataflow service producer prod/global/image
外部化Spring Cloud数据流配置-Spring Cloud Config Server

仍在努力完成这项任务。我有以下东西： Pivotal Cloud Foundry-弹性运行时1.7。5 SCCS实例正确地连接到我的BitBucket存储库，并且它是在线的。我试图推动Spring-Cloud-dataflow-server-Cloud Foundry-1.0.0。m4.jar以下舱单：在我的BitBucket repo中，我有以下属性文件保存环境变量：scdf dev abc。
Spring Cloud数据流和originalContentType

我使用的是Spring Cloud Edgware和Spring Cloud DataFlow 1.2.3。我在contentType和originalContentType上遇到了问题，尽管我有一个解决方案，但我不明白为什么需要它。现在需要在datasink和另一个rabbit Sink之间引入一个桥梁。新的桥流很简单：兔源兔库其中rabbit-source从前面提到的DataLink中
apachebeam-bigqueryupsert

我有一个数据流工作，将单个文件分割成x个记录（表）。这些流在bigQuery没有问题。不过，我发现没有办法在结果出来后执行管道中的另一个阶段。举个例子根据上述内容，我希望运行以下内容：是有无论如何运行管道的另一个部分后，up到bigQuery或这是不可能的？提前感谢。

优化apache beam/cloud数据流启动

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档