当前位置: 首页 > 知识库问答 >
问题:

DataFlow/Apache光束核心转换

越骏俊
2023-03-14

apachebeam中的核心转换(Map、Filter、flatte)是否使用并行处理来处理数据元素,如果是,具体什么时候应该使用ParDo转换?

共有2个答案

慕光霁
2023-03-14

我会给你推荐apache_beam文档。

核心束变换

简单地说,当您有一个“用户定义函数”要应用于管道时,您可以使用ParDo,例如,您希望将段落中的每个句子拆分为单个单词。您可能希望应用split()函数,但split()不是核心束变换之一,因此ParDo允许您将其偷偷引入。

越学博
2023-03-14

Beam实现了Map和Reduce的概念。所有“映射”操作,这意味着可以执行单一操作(过滤器、映射等),可以并行完成(在具有不同线程的同一服务器上或在不同服务器上)。

比较一组(PCollection)值所需的所有“REDUCE”操作都在同一服务器/线程上执行。

因此,在对PCollection中的单个条目执行酉操作时,请使用ParDo。

 类似资料:
  • 说明 Apache HTTP服务器核心提供的功能,始终有效 状态 核心(C) AcceptFilter 指令 说明 根据协议类型对监听Socket进行优化 语法 AcceptFilter protocol accept_filter 作用域 server config 状态 核心(C) 模块 core 兼容性 仅在 Apache 2.1.5 以后的版本中可用 这个指令使得操作系统根据协议类型对监听

  • Apache Spark:核心数与执行器数 由于每个案例都不一样,我又问了一个类似的问题。 我正在运行一个cpu密集型的应用程序,具有相同数量的核心和不同的执行器。以下是观察结果。 更新 案例3:执行器-12个,每个执行器的核心数-1个,执行器内存-3个,数据处理量-10 GB,分区-36个,作业持续时间:81分钟

  • 问题内容: 每当进程崩溃时,我都想创建一个核心转储。目前,我正在采用这种方法: 使用gcc / g ++的“ -g”构建程序的特殊“调试”版本。 执行“ ulimit -c unlimited” 现在,只要程序崩溃,我们就获得核心转储。 但我想减少步骤数,以便: 应始终创建核心转储。即使是“发布”版本。不应要求用户手动执行命令“ ”。 该核心转储的回溯应该能够给出调用的文件,函数,行号。那是人类可

  • 我想知道Apache Beam.Google DataFlow是否足够聪明,能够识别数据流图中的重复转换,并只运行一次。例如,如果我有2个分支: null

  • .NET核心和ASP.NET核心到底有什么区别?

  • 我正在使用KafkaIO API https://beam.apache.org/documentation/sdks/javadoc/2.0.0/org/apache/beam/sdk/io/Kafka/kafkao.html流式传输来自Kafka主题的消息 管道流程如下: 根据documenattion窗口是必要的,如果我们正在进行任何计算,如GroupByKey等。因为我只是解码数组字节消息