使用Python / ElementTree解析XML时如何保留注释

柳星晖

2023-03-14

问题内容：

当前使用Python 2.4.3，并且不允许升级

我想更改一个或多个标记中给定属性的值，以及更新文件中的XML注释。

我设法创建了一个以XML文件作为参数的Python脚本，并且为每个指定的标签更改了一个属性，如下所示

def update(file, state):
    global Etree
    try:
        from elementtree import ElementTree
        print '*** using ElementTree'
    except ImportError, e:
        print '***'
        print '*** Error: Must install either ElementTree or lxml.'
        print '***'
        raise ImportError, 'must install either ElementTree or lxml'
    #end try

    doc = Etree.parse(file)
    root = doc.getroot()

    for element in root.findall('.//StateManageable'):
        element.attrib['initialState'] = state
    #end for
    doc.write(file)
#end def

一切都很好，属性“ initialState”已更新，除了我的原始XML也包含许多XML注释的事实，但它们早已消失了，这是不好的。

怀疑只能解析XML结构，但我认为XML注释是该结构的一部分。我还意识到我的原始文档的“人类可读”格式已经不复存在，但是我已经意识到这是预期的行为，需要在以后使用xmllint –formatXSL进行格式化。

问题答案：

我知道这已经很老了，但是我偶然发现了上面有关如何保留评论的答案。弗雷德里克（Frederik）已发布的有关如何在树中添加注释的说明仍适用于当前版本的ElementTree，但至少要超出我的使用范围。它将XML包装在一个元素中，这对我来说是不可取的。我也不需要保留处理指令，而只需注释。因此，我减少了他在网站上提供的课程：

import xml.etree.ElementTree as ET

class PCParser(ET.XMLTreeBuilder):

   def __init__(self):
       ET.XMLTreeBuilder.__init__(self)
       # assumes ElementTree 1.2.X
       self._parser.CommentHandler = self.handle_comment

   def handle_comment(self, data):
       self._target.start(ET.Comment, {})
       self._target.data(data)
       self._target.end(ET.Comment)

要使用此方法，请将该对象的实例创建为“解析器”，然后将其作为参数传递给ElementTree.parse（），如下所示：

parser = PCParser()
self.tree = ET.parse(self.templateOut, parser=parser)

我对代码或对ElementTree的未记录使用一无所知，但这对我有用，它只保留注释而不影响原始文档的结构。并注意，将来对ElementTree的任何更改（尽管在所有这些年来似乎都不太可能）将打破这一点。

使用Python / ElementTree解析XML时如何保留注释

相关阅读

相关文章

相关问答

相关工具

相关文档