大数据起步之wormhole初识

夏兴生
2023-12-01

第一个接触wormhole是公司的一个开发项目,由于之前供职于宜信,接触到这个开源项目,目前宜信已经推出Davinci、Moonbox、Wormhole、UAV.Monitor等10项领先开源技术,以将宜信的技术和方法开放共享,繁荣技术生态。

开源网址: https://github.com/edp963/wormhole

wormhole的简介:

  •         Wormhole是一个SPAAS(Stream Processing as a Service)平台解决方案。Wormhole面向大数据项目开发和管理人员,致力于简化和统一开发管理流程。尤其是针对流式实时和流式准实时数据处理场景,Wormhole提供了可视化的操作界面,极简的配置流程,基于SQL的业务开发方式,并屏蔽了大数据处理底层技术细节,极大的降低了开发管理门槛,使得大数据项目开发和管理变得更加轻量敏捷可控可靠。

Wormhole的设计理念:

  • 统一流式处理DAG高阶分形抽象:构建由 Source DataSys,Kafka Topic,Spark Stream(Flink Stream),Sink DataSys 组成的物理 DAG;每个物理 DAG 里可以并行处理多个由 Source Namespace,Flow,Sink Namespace 组成的逻辑 DAG;每个 Flow 本身是典型的 Spark RDD DAG
  • 统一通用流转消息UMS协议抽象:UMS 是 Wormhole 定义的流消息协议规范;UMS 试图抽象统一所有结构化消息;UMS 自身携带结构化数据 Schema 信息;Wh4 支持用户自定义半结构化 JSON 格式
  • 统一表命名空间Namespace定义抽象:Namespace 唯一定位所有数据存储所有结构化逻辑表;[Data System].[Instance].[Database].[Table].[Table Version].[Database Partition].[Table Partition]

wormhole的基本原理:

    正在总结。。。。。。。。。。(马上更新)

 类似资料: