DataCleaner是一个数据质量工具包,您可以分析、更正和丰富数据。主要是分析数据,清洗数据,以及在匹配和主数据管理解决方案中使用。最后的数据呈现不是太直观。
最近工作中刚好使用到,看了原官方全英文文档不是那么直观,谷歌自动翻译也很难受。抽空自己人性化翻译了一下,便于有兴趣的伙伴了解理解。按照官网文档直译,需结合实际操作才能愈加熟悉了解。
官方文档地址:https://datacleaner.github.io/documentation
DataCleaner官网:https://datacleaner.org
功能拓展社区:https://github.com/schic/DQCS
Ⅰ.DataCleaner简介
1.背景和概念 |
1.1 什么是数据质量(DQ)?
1.2 什么是数据分析?
1.3 什么是数据争用?
1.4 什么是数据存储?
复合数据存储
1.5 什么是数据监控?
1.6 什么是主数据管理(MDM)?
2.DataCleaner桌面版入门 |
2.1 安装客户端
2.2 连接数据库(或存储文件)
2.3 向job中添加组件
2.4 连接组件
转换器输出
过滤条件
输出数据流
2.5 执行job
2.6 保存和打开job
2.7 job示例模板
2.8 将清洗后的数据写入文件
Ⅱ.组件分析
3. Transform |
3.1 JavaScript 转换器
3.2 调用子分析job
3.3 Apply classifier & Apply regression
3.4 Equals 过滤器
3.5 Max rows 过滤器
3.6 Not null 过滤器
3.7 Union转换器
4. Improve |
5. Analyze |
5.1 布尔分析器
5.2 完整性分析器
5.3 字符集分布
5.4 日期间隔分析器
5.5 日期/时间分析器
5.6 数字分析器
5.7 模式工具
5.8 参考数据匹配器
5.9 参照完整性
5.10 字符串分析器
5.11 主键检查
5.12 值分布
5.13 值匹配
5.14 工作日分布
5.15 机器学习
6. Write |
6.1 创建CSV文件
6.2 创建Excel表格
6.3 创建临时表
6.4 插入表格
6.5 更新表格
Ⅲ.数据参考
7. Dictionaries |
8. Synonyms (aka. Synonym catalogs) |
9. String patterns |
9 字符串模式
Ⅳ.相关配置
10. Configuration file |
10.1 XML模式
10.2 数据存储
数据库(JDBC)连接
逗号分隔值(CSV)文件
固定宽度值文件
Excel 数据存储
XML 数据存储
ElasticSearch 数据存储
MongoDB 数据存储
CouchDB 数据存储
复合数据存储
10.3 参考数据
字典
同义词目录
字符串模式
10.4 任务执行器
10.5 存储提供商
11. Analysis job files |
11.1 xml模式
11.2 Source section
12. Logging |
12.1 日志配置文件
12.2 默认日志配置
12.3 修改日志级别
12.4 选择性日志输出
13. Database drivers |
13.1 在DataCleaner桌面中安装数据库驱动程序
Ⅴ.调用 DataCleaner jobs
14. Command-line interface |
14.1 可执行程序
14.2 使用场景
14.3 执行分析job
14.4 列出数据存储内容和可用组件
14.5 参数化job
14.6 动态重写配置元素
15. Apache Hadoop and Spark interface |
15.1 Hadoop部署概述
15.2 设置Spark和DataCleaner环境
将配置文件上传到HDFS
将作业文件上传到HDFS
将可执行文件上传到HDFS
15.3 使用Spark启动DataCleaner作业
15.4 在DataCleaner桌面端使用Hadoop
配置Hadoop集群
HDFS上的CSV数据存储
15.5 Hadoop接口的限制
Ⅵ.第三方集成
16. Pentaho integration |
16.1 在Pentaho数据集成中配置DataCleaner
16.2 启动DataCleaner以分析Pentaho数据集成步骤
16.3 在Pentaho数据集成中运行DataCleaner作业
Ⅶ.开发者指南
17. Architecture |
18. Executing jobs through code |
18.1 步骤和选项概述
18.2 第一步:配置
18.3 第二步:作业
18.4 第三步:执行
18.5 第四步:结果
19. Developer resources |
19.1 扩展开发教程
19.2 Building DataCleaner
20. Extension packaging |
20.1 组件上的注解
20.2 单个jar文件
20.3 扩展元数据XML
20.4 组件图标
21. Embedding DataCleaner |