这个Netflix开源的一个项目,Aegisthus已经转换为维护模式, 它仍然用于Netflix的ETL,但是它不会进一步发展。
项目地址:https://github.com/Netflix/aegisthus
git clone https://github.com/Netflix/aegisthus.git
./gradlew build
./hadoop jar ~/aegisthus-hadoop-0.2.4.jar com.netflix.Aegisthus \
-D aegisthus.keytype=UTF8Type \ #指定输出key的格式为utf-8
-D aegisthus.columntype=UTF8Type \ #指定输出column名称格式为utf-8
-D mapred.reduce.tasks=6 \ #指定输出的文件分块为6个
-input ~/embrace/test-he-Data.db \ #数据文件名称
-output ~/embrace/output #输出文件保存路径