SeaTunnel 是一个非常易用的支持海量数据快速同步的云原生数据集成平台,每天可以稳定高效同步千亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持过百种数据源。
SeaTunnel 尽所能为您解决海量数据同步中可能遇到的问题:
Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin
Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin
Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin
java 运行环境,java >= 8
如果您要在集群环境中运行 SeaTunnel,那么需要以下环境的任意一种:
如果您的数据量较小或者只是做功能验证,也可以仅使用 local
模式启动,无需集群环境,SeaTunnel 支持单机运行。
可以直接运行的软件包下载地址:https://seatunnel.apache.org/download
快速入门:https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/quick-start-seatunnel-engine
关于 seatunnel 的详细文档
微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 seatunnel,以及其子项目Guardian做 seatunnel On Yarn 的任务监控。
新浪, 大数据运维分析平台 新浪运维数据分析平台使用 seatunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。
搜狗,搜狗奇点系统 搜狗奇点系统使用 seatunnel 作为 ETL 工具, 帮助建立实时数仓体系
更多案例参见: https://seatunnel.apache.org/user
提交问题和建议:https://github.com/apache/incubator-seatunnel/issues
贡献代码:https://github.com/apache/incubator-seatunnel/contribute
Flink集群部署安装 Standalone模式部署 Flink 安装部署需要准备 3 台 Linux 机器。具体要求如下: 系统环境为 CentOS 7.5 版本。 安装 Java 8(略)。 环境变量,(部署完成) export JAVA_HOME=/bigdata/opt/jdk/jdk1.8.0_211 export JRE_HOME=${JAVA_HOME}/jre export CLA
Apache Seatunnel 是一个开源的WebSocket代理,它可以让你连接到Websocket服务器并且转发消息到其他服务器。Github 上的星星数量为 120。它被多家公司使用,比如:Google,IBM,微软,亚马逊,谷歌,英特尔等。
Apache SeaTunnel 简介 下一代高性能、分布式、海量数据集成框架 核心特性 组件丰富:内置丰富插件,支持各种数据产品方便快捷的传输和集成数据 高扩展性:基于模块化和插件化设计,支持热插拔,带来更好的扩展性 简单易用:特有的架构设计下,使得开发配置更简单,几乎零代码,无使用成本 成熟稳定:经历多家企业,大规模生产环境使用和海量数据的洗礼,稳定健壮 一、准备工作 首先安装并设置Java(
主要内容:并行化集合,外部数据集RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。 有两种方法可以用来创建RDD: 并行化驱动程序中的现有数据 引用外部存储系统中的数据集,例如:共享文件系统,HDFS,HBase或提供Hadoop InputFormat的数据源。 并行化集合 要创建并行化集合,请在驱动程序中的现有集合上调用的方法。复制集合的每个元素以形成
5.3 ABP分布式服务 - 集成OData 5.3.1 简介 开放数据协议(Open Data Protocol,缩写OData)是一种描述如何创建和访问Restful服务。你可以在Abp中使用OData,只需要通过Nuget来安装Abp.Web.Api.OData. 5.3.2 安装 1. 使用Nuget安装 首先应该使用Nuget安装Abp.Web.Api.OData到我们的WebApi项目
从Chromium的内容模块收集跟踪数据,以发现性能瓶颈和缓慢的操作 进程: 主进程 这个模块不具备web接口,需要我们在chrome浏览器中添加 chrome://tracing/ 来加载生成结果文件. 注意该模块应当在 ready事件之后使用. 1 const {contentTracing} = require('electron') 2 const options = { 3 categ
分布式支持 数据访问层支持分布式数据库,包括读写分离,要启用分布式数据库,需要开启数据库配置文件中的deploy参数: return [ // 启用分布式数据库 'deploy' => 1, // 数据库类型 'type' => 'mysql', // 服务器地址 'hostname' => '192.168.1.1,19
Map Redisson 分布式的 Map 对象,实现了 java.util.concurrent.ConcurrentMap 和 java.util.Map 接口。 Map 的大小由 Redis 限制为 4 294 967 295。 RMap<String, SomeObject> map = redisson.getMap("anyMap"); SomeObject prevObject =
集群策略插件化 分布式集群策略采用插件的方式实现,通过SPI的形式发布,通过配置文件激活。 zookeeper分布式策略
5.4 ABP分布式服务 - 集成SwaggerUI 5.4.1 简介 从官网得知,开启Swagger,你可以获得一个交互式的文档,生成和发现客户端SDK。 5.4.2 ASP.NET Core 1. 安装 你可以很容易的集成Swagger到基于ASP.NET Core的 ABP项目。 2. 安装Nuget包 安装 Swashbuckle nuget包到你的Web项目。 3. 配置 在 Start
一、RDD简介 RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性: 一个 RDD 由一个或者多个分区(Partitions)组成。对于 RDD 来说,每个分区会被一个计算任务所处理,用户可以在创建 RDD 时指定其分区个数,如果没有指定,