第一个接触wormhole是公司的一个开发项目,由于之前供职于宜信,接触到这个开源项目,目前宜信已经推出Davinci、Moonbox、Wormhole、UAV.Monitor等10项领先开源技术,以将宜信的技术和方法开放共享,繁荣技术生态。
开源网址: https://github.com/edp963/wormhole
wormhole的简介:
- Wormhole是一个SPAAS(Stream Processing as a Service)平台解决方案。Wormhole面向大数据项目开发和管理人员,致力于简化和统一开发管理流程。尤其是针对流式实时和流式准实时数据处理场景,Wormhole提供了可视化的操作界面,极简的配置流程,基于SQL的业务开发方式,并屏蔽了大数据处理底层技术细节,极大的降低了开发管理门槛,使得大数据项目开发和管理变得更加轻量敏捷可控可靠。
Wormhole的设计理念:
- 统一流式处理DAG高阶分形抽象:构建由 Source DataSys,Kafka Topic,Spark Stream(Flink Stream),Sink DataSys 组成的物理 DAG;每个物理 DAG 里可以并行处理多个由 Source Namespace,Flow,Sink Namespace 组成的逻辑 DAG;每个 Flow 本身是典型的 Spark RDD DAG
- 统一通用流转消息UMS协议抽象:UMS 是 Wormhole 定义的流消息协议规范;UMS 试图抽象统一所有结构化消息;UMS 自身携带结构化数据 Schema 信息;Wh4 支持用户自定义半结构化 JSON 格式
- 统一表命名空间Namespace定义抽象:Namespace 唯一定位所有数据存储所有结构化逻辑表;[Data System].[Instance].[Database].[Table].[Table Version].[Database Partition].[Table Partition]
wormhole的基本原理:
正在总结。。。。。。。。。。(马上更新)