Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
系统架构:
核心优势:
主要功能:
企业应用:
Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。
团队成员:
Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。
目的 Griffin DSL 是为 DQ 测量而设计的,作为一种类似 SQL 的语言,它试图描述 DQ 请求。 包括各种测量类型: a Accuracy profiling uniqueness timeliness … 包括各种数据源类型: batch hive avro … streaming kafka 包括各种数据格式类型: Structured data hive table json
此页面列出了Apache Griffin提供的主要RESTful API。 Apache Griffin默认的BASE_PATH是 http://<your ip>:8080. HTTP响应设计 我们遵循一般规则来设计Apache Griffin的REST API。在发送到客户端的HTTP响应中,状态代码(三位数字)伴随着一个简单描述代码含义的原因短语(也称为状态文本)。状态代码按编号范围分类,每
一 简介 在measuer源码中,BatchDQApp执行run方法时(这里以batch数据处理hive源数据库为例),创建数据检测job时,实际上是通过客户配置的DSL的语法在代码中转换成对一个的sql执行 // 创建数据检测对比job信息 // build job val dqJob = DQJobBuilder.buildDQJob(dqContext, dqParam.getEvaluat
数据集 此案例适用于基于hive,HDFS等批数据作为数据源进行数据质量监控。 假设我们有一个数据集(demo_src),按小时划分,我们想知道每个小时的数据是什么样的。 为简单起见,假设两个数据集都具有与此相同的架构: id bigint age
本文向大家介绍spring boot mybatis多数据源解决方案过程解析,包括了spring boot mybatis多数据源解决方案过程解析的使用技巧和注意事项,需要的朋友参考一下 在我们的项目中不免会遇到需要在一个项目中使用多个数据源的问题,像我在得到一个任务将用户的聊天记录进行迁移的时候,就是用到了三个数据源,当时使用的AOP的编程方式根据访问的方法的不同进行动态的切换数据源,觉得性能不
本文向大家介绍开源数据库,包括了开源数据库的使用技巧和注意事项,需要的朋友参考一下 开源数据库是具有开源代码的数据库,即任何人都可以查看,研究甚至修改代码。开源数据库可以是关系(SQL)或非关系(NoSQL)。 为什么要使用开源数据库? 为任何公司创建和维护数据库都非常昂贵。在软件总支出中,很大一部分用于处理数据库。因此,切换到低成本开源数据库是可行的。从长远来看,这可以为公司节省很多钱。 使用中
除了Confluent HDFS库(非开源),是否有任何完全开源的库可以将消息从Kafka(使用Kafka Connect)移动到HDFS 3? Kafka Connect HDFS 2 Sink-汇流社区许可证 Kafka Connect HDFS 3 Sink-融合企业许可证 相关:需要使用Kakfa Connect将小型JSON消息从Kafka移动到HDFS,但如果不完全免费使用Conflu
本文向大家介绍Oracle ASM数据库故障数据恢复解决方案,包括了Oracle ASM数据库故障数据恢复解决方案的使用技巧和注意事项,需要的朋友参考一下 一、故障描述 ASM磁盘组掉线 ,ASM实例不能mount。ASM磁盘组有4个500G的磁盘组成,数据库和ASM软件为10.2.0.1,急需恢复oracle数据库。 二、故障分析 分析组成ASM磁盘组的磁盘,取出ASM元数据,对元数据进
本文向大家介绍SQL Server数字开头的数据库表名的解决方法,包括了SQL Server数字开头的数据库表名的解决方法的使用技巧和注意事项,需要的朋友参考一下 今天遇到了个郁闷的问题,关于数据库表名的问题。 SQL Server的数据库的表名可以用数字开头,但是在查询的时候,不能直接写表名,如下: select * form 1_tablename
本文向大家介绍解决Python中回文数和质数的问题,包括了解决Python中回文数和质数的问题的使用技巧和注意事项,需要的朋友参考一下 一、前言 今天学习视频时课后作业是找出1000以内既是素数又是回文数的数,写代码这个很容易,结果一运行遇到了bug,输出结果跟预期不一样,调试了快30min,再接着一通搜索和回看视频才发现问题所在。所以特地写下来,方便以后查看。问题的关键是判断素数过程中for…e
我有以下CVRPTW问题,我正在尝试使用OptaPlanner找到一个好的解决方案。时间为hh: mm: ss格式。 我的DRL文件是这样的。此外,我还定义了一个与准备时间之前到达相关的硬约束。我的解算器配置如下,但终止标记不同: 这是问题陈述: 我有2辆车,容量为10件物品和1个仓库。 这是解决方案(客户按车辆分组,按到达时间排序): (D=需求,Ar.T=到达时间,上一个D=与上一个位置的距离
本文向大家介绍Java解析JSON数据时报错问题解决方案,包括了Java解析JSON数据时报错问题解决方案的使用技巧和注意事项,需要的朋友参考一下 一、问题由来 测试人员最近在测试时,后台日志一直抱错,大致意思是JSON数据解析错误,错误信息如下: 二、问题分析 去查看代码时,发现异常信息是这里抛出来的,解析时使用的是json-lib这个包中的方法; 然后进一步排查错误,将里面的测试数据复制出来查