当前位置：首页 > 软件库 > 数据库相关 > 数据库管理工具 >

HdfsDataExchanger

hdfs 集群间数据交换

授权协议未知

开发语言 Java

所属分类数据库相关、数据库管理工具

软件类型开源软件

地区国产

投递者仲孙温文

操作系统跨平台

开源组织无

适用人群未知

软件概览

背景

当前比较流行的hdfs间数据迁移工具有hadoop默认提供的distcp，阿里开源的DataX，这些工具能够满足常规的大部分需求，但是当时碰到hadoop版本不一致、keberos授权等场景时就行不通了。针对这些特殊的应用场景和实际需求我就构思并实现了HdfsDataExchanger这种实现方案。通过在一台可以访问两边hadoop集群的中转机上部署HdfsDataExchanger就可以实现将一个集群的数据迁移到另一个集群。HdfsDataExchanger提供单机多线程数据迁移，不支持分布式并行执行。

功能介绍

不同版本的hdfs间文件迁移。
本地文件系统与hdfs间文件迁移。

原理说明

抽象一套hdfs文件操作接口。
使用源集群和目标集群对应版本的hadoop分别实现接口。
使用jetty的WebAppClassLoader分别加载两套(源和目标)hdfs相关的jar，并创建对应的FileSystem。
使用源FileSystem读取数据到缓冲区，然后使用目标FileSystem将缓冲区的数据写入到目标文件。

使用说明

data-exchanger目录下包含完整的部署目录

h1为hadoop1的配置(conf)和相关的jar包(jars)
h2为hadoop2的配置(conf)和相关的jar包(jars)
main为主程序相关的配置(conf)、相关的jar包(jars)和启动脚本(bin)

配置说明

参数名	说明
thread.count	并行进行迁移数据的线程数量
buffer.size	读取数据缓冲区大小
src/dest.hdfs.resource.path	源/目标hdfs的jar包目录
src/dest.filesystem.implement	源/目标针对抽象出的hdfs接口(com.sebastian.fdx.fs.api.BaseFileSystem)的实现类，WebAppClassLoader根据此配置加载对应的实现
src/dest.hdfs.conf.path	源/目标对应的core-site.xml和hdfs-site.xml

h1和h2的jars目录下应该包含依赖的所有hadoop jar包，当前只包含了fdx-hadoopX-filesystem-1.0-SNAPSHOT.jar,用户在使用时需根据实际的hadoop版本自行编译，并将依赖的jar和编译出来的jar一并放到对应的目录下。
main/jars目录放fdx-executor和fdx-filesystem-api编译出的jar以及依赖的所有jar。
main/conf/parameter.xml

执行
bin/run.sh src_path1 src_path2 ... dest_path 将src_pathX下的所有文件、目录复制到dest_path下

HdfsDataExchanger

背景

功能介绍

原理说明

使用说明

同类工具

相关阅读

相关文章

相关问答

相关文档