当前位置: 首页 > 软件库 > 大数据 > 数据处理 >

Apache SeaTunnel

高性能分布式数据集成平台
授权协议 Apache
开发语言 Java
所属分类 大数据、 数据处理
软件类型 开源软件
地区 国产
投 递 者 齐英耀
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

SeaTunnel 是一个非常易用的支持海量数据快速同步的云原生数据集成平台,每天可以稳定高效同步千亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持过百种数据源。

为什么我们需要 SeaTunnel

SeaTunnel 尽所能为您解决海量数据同步中可能遇到的问题:

  • 数据丢失与重复
  • 任务堆积与延迟
  • 吞吐量低
  • 应用到生产环境周期长
  • 缺少应用运行状态监控

SeaTunnel使用场景

  • 海量数据同步
  • 海量数据集成
  • 海量数据的 ELT/ETL
  • 海量数据聚合
  • 多源数据处理

SeaTunnel 特性

  • 简单易用,灵活配置,无需开发
  • 支持 CDC 
  • 离线多源数据全量和增量同步
  • 超高性能、海量数据处理能力
  • 模块化和插件化,易于扩展

SeaTunnel 支持的 Connector

  • Source

Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin

  • Transform

Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin

  • Sink

Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin

环境依赖

  1. java 运行环境,java >= 8

  2. 如果您要在集群环境中运行 SeaTunnel,那么需要以下环境的任意一种:

  • SeaTunnel Zeta
  • Spark
  • Flink

如果您的数据量较小或者只是做功能验证,也可以仅使用 local 模式启动,无需集群环境,SeaTunnel 支持单机运行。

下载

可以直接运行的软件包下载地址:https://seatunnel.apache.org/download

快速入门

快速入门:https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/quick-start-seatunnel-engine

关于 seatunnel 的详细文档

生产应用案例

  • 微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 seatunnel,以及其子项目Guardian做 seatunnel On Yarn 的任务监控。

  • 新浪, 大数据运维分析平台 新浪运维数据分析平台使用 seatunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。

  • 搜狗,搜狗奇点系统 搜狗奇点系统使用 seatunnel 作为 ETL 工具, 帮助建立实时数仓体系

更多案例参见: https://seatunnel.apache.org/user

贡献观点和代码

提交问题和建议:https://github.com/apache/incubator-seatunnel/issues

贡献代码:https://github.com/apache/incubator-seatunnel/contribute

  • Flink集群部署安装 Standalone模式部署 Flink 安装部署需要准备 3 台 Linux 机器。具体要求如下: 系统环境为 CentOS 7.5 版本。 安装 Java 8(略)。 环境变量,(部署完成) export JAVA_HOME=/bigdata/opt/jdk/jdk1.8.0_211 export JRE_HOME=${JAVA_HOME}/jre export CLA

  • Apache Seatunnel 是一个开源的WebSocket代理,它可以让你连接到Websocket服务器并且转发消息到其他服务器。Github 上的星星数量为 120。它被多家公司使用,比如:Google,IBM,微软,亚马逊,谷歌,英特尔等。

  • Apache SeaTunnel 简介 下一代高性能、分布式、海量数据集成框架 核心特性 组件丰富:内置丰富插件,支持各种数据产品方便快捷的传输和集成数据 高扩展性:基于模块化和插件化设计,支持热插拔,带来更好的扩展性 简单易用:特有的架构设计下,使得开发配置更简单,几乎零代码,无使用成本 成熟稳定:经历多家企业,大规模生产环境使用和海量数据的洗礼,稳定健壮 一、准备工作 首先安装并设置Java(

 相关资料
  • 主要内容:并行化集合,外部数据集RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。 有两种方法可以用来创建RDD: 并行化驱动程序中的现有数据 引用外部存储系统中的数据集,例如:共享文件系统,HDFS,HBase或提供Hadoop InputFormat的数据源。 并行化集合 要创建并行化集合,请在驱动程序中的现有集合上调用的方法。复制集合的每个元素以形成

  • 5.3 ABP分布式服务 - 集成OData 5.3.1 简介 开放数据协议(Open Data Protocol,缩写OData)是一种描述如何创建和访问Restful服务。你可以在Abp中使用OData,只需要通过Nuget来安装Abp.Web.Api.OData. 5.3.2 安装 1. 使用Nuget安装 首先应该使用Nuget安装Abp.Web.Api.OData到我们的WebApi项目

  • 从Chromium的内容模块收集跟踪数据,以发现性能瓶颈和缓慢的操作 进程: 主进程​ 这个模块不具备web接口,需要我们在chrome浏览器中添加 chrome://tracing/ 来加载生成结果文件. 注意该模块应当在 ready事件之后使用. 1 const {contentTracing} = require('electron') 2 const options = { 3 categ

  • 分布式支持 数据访问层支持分布式数据库,包括读写分离,要启用分布式数据库,需要开启数据库配置文件中的deploy参数: return [ // 启用分布式数据库 'deploy' => 1, // 数据库类型 'type' => 'mysql', // 服务器地址 'hostname' => '192.168.1.1,19

  • Map Redisson 分布式的 Map 对象,实现了 java.util.concurrent.ConcurrentMap 和 java.util.Map 接口。 Map 的大小由 Redis 限制为 4 294 967 295。 RMap<String, SomeObject> map = redisson.getMap("anyMap"); SomeObject prevObject =

  • 集群策略插件化 分布式集群策略采用插件的方式实现,通过SPI的形式发布,通过配置文件激活。 zookeeper分布式策略

  • 5.4 ABP分布式服务 - 集成SwaggerUI 5.4.1 简介 从官网得知,开启Swagger,你可以获得一个交互式的文档,生成和发现客户端SDK。 5.4.2 ASP.NET Core 1. 安装 你可以很容易的集成Swagger到基于ASP.NET Core的 ABP项目。 2. 安装Nuget包 安装 Swashbuckle nuget包到你的Web项目。 3. 配置 在 Start

  • 一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 RDD 来说,每个分区会被一个计算任务所处理,用户可以在创建 RDD 时指定其分区个数,如果没有指定,