我们都知道,Perl对于XML文件的支持可谓简单、多样化。CPan上使用的比较多的是XML::Simple模块,该模块可以将整个XML文件结点的数据结构信息以Hash的方式Dump到内存,查看和修改内存信息可以通过对应的Hash key去访问和修改,修改后如果要保存到XML源文件也十分方便。
但是Simple模块也有一些缺点:
1. 要获取某个结点信息之前必须将所有结点信息先DUMP到内存,这样就额外做了本不需要的工作。
2. 由于需要Dump内存,如果XML文件比较大,而且需要频繁作文件的“打开——查看、修改、保存——关闭”操作,则相对耗费内存大,而且效率低。
所以Simple模块比较适合于小型XML文件的操作。同样是对XML的读写操作,XML::XPath模块通过对XPath的支持,可以让程序员轻松地对XML文件“按需索取”,基于XPath的路径检索加快了搜索的速度,也节省了内存。
其实,CPan上关于XML读写的Module很多,但是大多数只提供了解析XML的接口,如何修改XML,并保存到源文件是另外一个大家都会遇到的问题。前面说到,Simple模块支持方便的写操作,但Simple在XML文件的解析上有一些缺陷,实际上也没有支持源文件的修改,只是将修改后的数据信息保存为另外一个XML文件。本质上,这是一个文件修改、保存的问题。既然XPath有XML文件解析上的优势,那能不能实现基于XPath的XML文件修改和保存呢?答案是肯定的。XPath模块提供了一个toString的方法,可以将当前节点下的所有信息以字符串方式输出,所以我们可以在修改内存以后,通过将根结点的toString信息重写文件达到修改源文件的目的。
my $root_nodes =$xp->find('/');
my $root =$root_nodes->get_node(1);
open(FH,">$file_name")ordie "Open file failed:$file_name !";
print FH$root->toString();
close(FH);
以上只是一种解决修改源文件的方案,实际上,重写文件的操作也是低效率的,如果每一次很小的修改都需要重写文件来保存的话势必是存在很多extra effort,这种方案的意义在于XML文件的操作基于XPath。
关于修改源文件的思考:
在普通的文件操作中,我们可以按行读取,获取要修改内容的当前行数,然后通过Seek操作重定位写入的位置,写入修改。如果XML::XPath也关心XML元素结点的行数的话,那么也可以通过Seek重定位实现XML文件的原地修改,这样就大大提高了XML文件的修改效率。