当前位置：首页 > 软件库 > 大数据 > 其他 >

Sylph

一站式流计算平台

授权协议 Apache-2.0

开发语言 Java Scala

所属分类大数据、其他

软件类型开源软件

地区国产

投递者萧明贤

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

简介

Sylph 被定位为大数据生态中的一站式流计算平台，您可以使用它来开发、管理、监控、运维您的流计算.

什么没看懂? 没关系apache-hive您总听过吧？(如果依然不知道,那么您最先需要看下最基础的hadoop三件套Hdfs,Yarn,Hive(MapReduce))

hive将您编写的hive-sql转换成分布式MR批计算Job(默认engine),然后自动在Hadoop-Yarn上执行,那么Sylph就是将Stream-Sql转换成分布式(Flink,…)流计算Job,然后同样自动在Hadoop-Yarn上执行,

您可以形象的把它比喻为Stream-Hive

demo

我们来看一个简单导航demo:

-- 注册json解析 udf
create function get_json_object as 'ideal.sylph.runner.flink.udf.UDFJson';
-- 定义数据流接入
create input table topic1(    
    _topic varchar,    
    _key varchar,    
    _message varchar,    
    _partition integer,   
    _offset bigint
) with (
    type = 'kafka',
    kafka_topic = 'TP_A_1,TP_A_2',
    "auto.offset.reset" = latest,
    kafka_broker = 'localhost:9092',
    kafka_group_id = 'streamSql_test1'
);
-- 定义数据流输出位置
create output table event_log(    
    key varchar,    
    user_id varchar,    
    event_time bigint
) with (    
    type = 'hdfs',   -- write hdfs    
    hdfs_write_dir = 'hdfs:///tmp/test/data/xx_log',    
    eventTime_field = 'event_time',    
    format = 'parquet'
);
-- 描述计算逻辑
insert into event_log 
select _key,get_json_object(_message, 'user_id') as user_id,
cast(get_json_object(_message, 'event_time') as bigint) as event_time 
from topic1

快速了解

快速两部了解sylph两步走:

+ 第一步: 您只需编写好Stream Sql，然后Sylph会编译您的sql，将其翻译成具体的物理计算引擎

+ 第二步: 然后你接下来只需点击任务上线，然后sylph就会将这个分布式流计算任务提交到Hadoop-Yarn上运行。 ok到此，你的大数据分布式流计算程序已经上线了，接下来您可以直接在sylph的代理页面查看您的job, 了解下参数情况等,可以在这里管理和杀死job。

对了如果您的分布式job挂了,那么sylph还会尝试重新期待并恢复它。

简要设计

下面我将列出一些主要的特性, 这里先简单看下sylph的设计:

特性盘点:

1, 如上所诉您已经出窥了一些sylph一站式方面的特性
2, Stream SQL支持
3, connector-plugin层提供统一抽象层,随着时间推移我们会有非常多稳定connector供你选择,如果您选择自己编码那么您的代码逻辑甚至无需做改动,就可以同时支持Flink,Spark等引擎
4, Stream SQL支持支持Watermark技术,注:Apache Flink-Table-SQL目前还不支持
5, 支持批流维表join(俗称打宽),注: Apache Flink-Table-SQL目前还不支持
6, Stream SQL支持同时支持基于Prscess Time和 Event Time两种语义进行计算,注:Apache Flink-Table-SQL目前还不支持

写给未来:

未来我们会添加local模式,on ks8等模式,因为一站式的原因,您甚至无做任何业务代码修改就可以非常容易进行过渡和升级,并且local模式可能会在没有hadoop的边缘计算场景中带来价值.

此致:

最后欢迎您的阅读!

使用案例

sylph是什么

SYLPH 是一个用于实时流计算的平台,核心是通过工作流描述构建分布式流计算应用程序。,SYLPH是一套完整的解决方案，主要包括：开发工具：webUI, 定义streamSql或streamETl任务运行时：基于spark2.x及flink1.5+ , 依赖hdfs和yarn pipline插件扩展: java8, 按需实现source,transform,sink 基础运维：在webUI完成
sylph使用

快速入门下面将以StreamSql为实例，一步步地搭建出一个分布式流计算应用，让你能快速的入门 SYLPH。 StreamSql是完全通过类sql来描述整个流计算的过程。主要需要描述: 数据源如何接入、如何计算、如何输出到外部存储; 例如计算每分钟的pv; 每5秒更新一次最近一分钟的uv。 demo1 下面例子演示将kafka topic TP_A_1,TP_A_2的数据实时写入mysql表m
Sylph平台自定义数据源hdfs数据源

Sylph 是一个一站式的大数据流计算平台，通过编译Stream SQL，sylph会自动生成Apache Flink等分布式程序到Apache Yarn集群运行。 Sylph地址：https://github.com/harbby/sylph/ 以下开发基于Sylph 0.5.0版本开发目标：由于当前Sylph提供的数据流接入类型仅有kafka及一个test类型，希望可以支持从hdfs接入数据
Sylph 0.6 预览版发布，全面支持 SPARK 流计算引擎

一站式大数据流计算平台Sylph 0.6预览版,开始全面支持SPARK流计算引擎简介 Sylph 是一个一站式的大数据流计算平台，通过编译Stream SQL，sylph会自动生成Apache Flink等分布式程序到Apache Yarn集群运行。通过它您只需编写Stream SQL，即可完成常见流计算快速开发、部署、运维、监控。 0.6 特性预览 1. 支持将Stream SQL编
SQL开发flink推荐sylph，还有AthenaX

1.个人推荐sylph 人不多，但是回复 2.AthenaX 没有联系方式，只能自己看源码值得推荐的这2个的单元测试都非常多

Sylph

简介

demo

快速了解

快速两部了解sylph两步走:

简要设计

特性盘点:

写给未来:

此致:

同类工具

相关阅读

相关文章

相关问答

相关文档