当前位置: 首页 > 知识库问答 >
问题:

Apache Beam Pipeline(Dataflow)-解释无界数据的执行时间

辛星宇
2023-03-14

我的一些转换的持续时间明显高于其他转换,这意味着转换需要更多的时间。但是,对于这种不均匀分布如何影响我的执行,特别是当我有一个窗口函数时,还有什么其他含义呢?

还有,这和自动缩放有关吗?例如,如果执行所用的时间超过一定的阈值,是否会有更多的工人被解雇?或者自动缩放依赖于输入端的数据量?

暂时还没有答案

 类似资料:
  • 语法和语义分析的结果是抽象语法树AST,再往后编译原理还有代码生成及优化的很大一部分,但如果只是做一个执行器,到AST为止就可以解释执行了,当然就算不生成AST,解析执行也可以,只是基于之前说过的原因,极少采用解析执行的方式 目前的大多数解释执行的语言,都是在虚拟机解释字节码执行,这个后面再说,它只是把AST的解释串行化了而已,事实上ruby在1.9版本之前是解释AST执行的,到1.9整合了YAR

  • 字节码的解释执行和AST的解释执行有类似之处,而且更简单,因为树形结构已经展开成顺序了,以栈虚拟机为例,为方便起见,假设所有的指令都在一个指令数组里,每个元素是一个指令对象,有code和arg两个属性,解释器入口: Object execute(Inst[] inst_list, Object[] func_arg); 由于continue和break已经被jmp指令代替了,这里我们认为exec

  • 这里的数据流有点新手,但是已经成功地创建了一个运行良好的pipleine。 pipleine从BigQuery读入查询,应用ParDo(NLP函数),然后将数据写入新的BigQuery表。 我试图处理的数据集大约为500GB,有4600万条记录。 当我试着用完整的数据集运行它时,它开始的速度非常快,但随后逐渐变慢,最终失败。此时,作业失败,添加了约900k个元素,约为6-7GB,然后元素计数实际上

  • 在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。 数据接收的并行水平 通过网络(如kafka,flume,socket等)接收数据需要这些数据反序列化并被保存到Spark中。如果数据接收成为系统的瓶颈,就要考虑并行地接收数据。注意,每个输入DStream创建一个receiver(运行在worker机器上) 接收单个数据流。创建多个输入DStrea

  • 问题内容: 我有一个带有功能的python模块: 有没有办法放入我有评论的命令行解释器?因此,如果我在python中运行以下命令: 我会在下一个评论的范围和上下文中得到我的下一个提示? 问题答案: 插入 届时将进入python调试器 参见此处:http : //docs.python.org/library/pdb.html

  • 我试图用时间序列创建一个简单的折线图。问题是androidplot没有正确显示数组中的时间值,即日期已关闭。日期应为: 2001年1月1日、2001年2月1日、2001年3月1日、2001年4月1日、2001年5月1日 但我得到了: 2001年1月1日、2001年1月30日、2001年3月1日、2001年3月31日、2001年5月1日 您可以从格式化的调试信息中看到androidplot解释了什么