最近搭建hadoop分布式环境时,参考了网上很多资料并成功搭建起来。为了将搭建步骤记录下来且方便以后再次使用,尝试将所有配置信息通过脚本的方式进行自动化(主要也是为了日后使用Docker)。因此遇到了在shell中配置XML(如 $HADOOP_HOME/etc/hadoop/core-site.xml)的需求。
通过搜索,发现很多网页都是推荐 xmlstarlet 命令,其有 ed(edit) 命令,可以编辑 xml 文件,并通过 -i/-a/-s 等命令即可在指定 xpath 下 插入/追加/建立子节点 。 不过测试发现,当要添加的节点信息比较复杂时,保存的节点信息会被转码。如想生成如下xml信息时:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>
</configuration>
尝试了多种命令组合(如):
xmlstarlet ed -s /configuration -t elem -n "" \
-v "<property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> \
<property><name>hadoop.tmp.dir</name><value>/usr/hadoop/tmp</value></property>" \
hadoop/core-site.xml
结果却如下所示(进行了转码,根本不是我想要的结果):
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/hadoop/tmp</value></property></></configuration>
考虑到xmlstarlet是开源的,因此决定下载并分析其源码,进行改造,从而满足我的要求。
经过两天的分析和修改,总算完成了改动,并将代码共享到 github 上。
下载源码后,执行以下命令即可编译,安装和使用(示例即是修改 hadoop/core-site.xml)。
./configure && make && make install