当前位置：首页 > 软件库 > 大数据 > 其他 >

Apache Beam

大数据批处理和流处理标准

授权协议 Apache

开发语言 Java

所属分类大数据、其他

软件类型开源软件

地区不详

投递者张银龙

操作系统跨平台

开源组织 Apache

适用人群未知

软件概览

Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员，是 Google 在2016年2月份贡献给 Apache 基金会的孵化项目。

这个项目的名称表明了设计：结合了批处理（Batch）模式和数据流（Stream）处理模式。它基于一种统一模式，用于定义和执行数据并行处理管道（pipeline），这些管理随带一套针对特定语言的SDK用于构建管道，以及针对特定运行时环境的Runner用于执行管道。

Apache Beam 的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现，Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

使用案例

Apache Beam简介及相关概念

一.简介 Apache Beam 是一个开放源码的统一模型，用于定义批处理和流数据并行处理管道。Apache Beam 编程模型简化了大规模数据处理的机制，使用一个开源的 Beam sdk，你可以构建一个定义管道的程序，然后由 Beam 支持的分布式处理后端执行管道，这些后端包括 Apache Flink、 Apache Spark 和 Google Cloud Dataflow。 Apache
Apache Beam 使用指南（三）Beam 读写 Mysql

Apache Beam 使用指南（三）Beam 读写 Mysql 首先Pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
Apache Beam 使用指南（四）Beam 读Kafka

Apache Beam 使用指南（四）Beam 读Kafka 首先是pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
Apache Beam 问题汇总

Apache Beam 问题汇总泛型擦除问题 Exception in thread "main" java.lang.IllegalStateException: Unable to return a default Coder for ParDo(Anonymous)/ParMultiDo(Anonymous).output [PCollection@577127077]. Correct
apache beam入门之初次使用

beam入门宝典之初次使用咱们不多废话，先直接来如何简单使用beam框架。这里我不使用常见的wordCount做例子，而是一个大写转小写的例子,语言选用java语言这个例子里我们会初步学到：如何建立管道如何手动生成数据如何转换如何查看输出首先我们要新建1个maven工程，然后在pom.xml中加入如下依赖: <dependency> <groupId>org.apache.bea
apache beam 入门之beam-sql

目录：apache beam 个人使用经验总结目录和入门指导（Java）就像spark-sql 一样，apache beam也有beam-sql，就是能够输入1张模拟数据表，然后通过sql语句来实现计算。举个例子，我们不希望在数据源端执行 select * from tableA left join talbeB on tableA.id = tableB.id where tableA.
apache beam_Apache Beam ML模型部署

apache beam This blog post builds on the ideas started in three previous blog posts. 这篇博客文章基于之前三篇博客文章中开始的想法。 In this blog post I’ll show how to deploy the same ML model that we deployed as a batch j
Apache Beam 使用指南（二）Beam 读写 Hdfs

Apache Beam 使用指南（二）Beam 读写 Hdfs 首先是Pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
使用Apache Beam进行ETL —将数据从API加载到BigQuery

We were recently faced with a challenge at work where we needed to consume customer details and activities from Exponea. The biggest limitation we encountered was with the event data, the API only all
ApacheBeam初探（简述和入门编程）

Apache Beam开发指南本指南用于指导Beam用户使用Beam SDK创建数据处理pipeline（pipeline）。本文会引导您用BeamSDK类构建和测试你的pipeline。本文不会详尽阐述所有内容，但可以看做一门未知的“编程语言”，引导您用编程的方式构建您的Beampipeline。随着开发指南内容愈加丰富，本文将会包含多种语言的示例代码，用于展示如何在您的pipeline中
Apache Beam Java SDK 快速入门

Apache Beam Java SDK 快速入门本快速入门将指导您使用beam的Java SDK在您选择的runner上执行您的第一个beam管道来运行设置开发环境按照指定操作系统上Maven的获取WordCount 代码获取WordCount管道副本的最简单方法是使用以下命令生成一个简单的Maven项目，该项目包含Beam的WordCount示例，并针对最新的Beam版本构建： $

Apache Beam

同类工具

相关阅读

相关文章

相关问答

相关文档