当前位置：首页 > 软件库 > 程序开发 > 常用工具包 >

Data Pipeline

授权协议未知

开发语言 Java

所属分类程序开发、常用工具包

软件类型开源软件

地区不详

投递者聂溪叠

操作系统未知

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Data Pipeline 是一个Java的数据转换工具包，主要的功能包括：

* 读: CSV, fixed-width, Excel, database, weblogs, custom
* 写: CSV, fixed-width, Excel, database, PDF, Word, XML, custom
* 操作: validate, filter, sort, lookup, 去除重复数据, convert, throttle, calculate, custom, and more
* 运行时表达式过滤器、数据验证以及公式计算

典型的应用场景包括:
1. 读取 CSV 文件
2. 删除重复的记录
3. 添加计算列
4. 删除无用的列
5. 数据保存到数据库

代码示例：

DataReader reader = new CSVReader(new File("credit-balance.csv"))
.setFieldNamesInFirstRow(true);

// Use only the "Rating" and "CreditLimit" fields in duplicate test
reader = new RemoveDuplicatesReader(reader, new FieldList("Rating", "CreditLimit"));

// Add AvailableCredit field, remove "CreditLimit", "Balance" fields
reader = new TransformingReader(reader)
.add(new SetCalculatedField("AvailableCredit", "parseDouble(CreditLimit) - parseDouble(Balance)"))
.add(new ExcludeFields("CreditLimit", "Balance"));

DataWriter writer = new JdbcWriter(getJdbcConnection(), "dp_credit_balance")
.setAutoCloseConnection(true);

JobTemplate.DEFAULT.transfer(reader, writer);

使用案例

用shell脚本生成data pipeline的日志

用shell脚本生成data pipeline的日志在数据处理的data pipeline通常主要的数据处理工作都是用shell脚本批量完成. 特别有必要生成各被试数据处理日志文件以便pipeline的调试, 优化, 数据处理的追踪. Python提供了一个日志记录工具包: loggings, 其实shell脚本也可以方便地生成日志. 用echo命令用echo将需要记录的内容输出, 并通过管道
数据管道（data pipeline）和ETL管道（ETL pipeline）的概念和区别

数据管道（data pipeline）和ETL管道（ETL pipeline）的概念和区别 ETL管道：将数据从系统中抽取出来加载到数据仓库或者数据库中，再对其进行转换，这个过程就是ETL管道。数据管道是比ETL管道更通用的概念，只要是实现系统之间数据迁移的处理过程就可以称为数据管道。数据管道并不一定以将数据加载到数据库或数据仓库为结束，举个例子，它也可以通过webhook的方式来触发其他业务
数据管道（data pipeline）与ETL管道（ETL pipeline）的区别

数据管道与ETL管道，这两个词的意义是相近的，差别比较微小，有时候很多人会混用。 ETL管道，描述的是一组进程，实现将数据从一个系统抽取出来，经过转换，最终再加载到其他数据库或数据仓库中。数据管道，是一个比ETL管道更加通用的术语，只要是实现系统之间的数据迁移的处理过程，都可以使用这个词来代表。迁移过程中可能存在着数据转换。 ETL管道，一般描述的是在批处理中使用的管道，例如：某个管道运行频率是

Data Pipeline

同类工具

相关阅读

相关文章

相关问答

相关文档