为什么ElementTree引发ParseError？

微生毅

2023-03-14

问题内容：

我一直在尝试使用解析文件xml.etree.ElementTree：

import xml.etree.ElementTree as ET
from xml.etree.ElementTree import ParseError

def analyze(xml):
    it = ET.iterparse(file(xml))
    count = 0
    last = None

    try:        
        for (ev, el) in it:
            count += 1
            last = el

    except ParseError:
            print("catastrophic failure")
            print("last successful: {0}".format(last))

    print('count: {0}'.format(count))

当然，这是我的代码的简化版本，但这足以破坏我的程序。如果删除try-catch块，则会出现一些文件出现此错误的情况：

Traceback (most recent call last):
  File "<pyshell#22>", line 1, in <module>
    from yparse import analyze; analyze('file.xml')
  File "C:\Python27\yparse.py", line 10, in analyze
    for (ev, el) in it:
  File "C:\Python27\lib\xml\etree\ElementTree.py", line 1258, in next
    self._parser.feed(data)
  File "C:\Python27\lib\xml\etree\ElementTree.py", line 1624, in feed
    self._raiseerror(v)
  File "C:\Python27\lib\xml\etree\ElementTree.py", line 1488, in _raiseerror
    raise err
ParseError: reference to invalid character number: line 1, column 52459

但是，结果是确定性的，如果文件有效，它将始终有效。如果文件失败，则它总是失败并且总是在同一点失败。

最奇怪的是，我正在使用跟踪来确定是否有任何格式错误的XML破坏了解析器。然后，我隔离导致故障的节点。但是，当我创建一个包含该节点及其几个邻居的XML文件时，解析就可以了！

这似乎也不是一个大小问题。我设法解析出更大的文件，没有任何问题。

有任何想法吗？

问题答案：

正如@John
Machin所建议的，尽管错误消息似乎指向文本中的错误位置，但有问题的文件中确实包含可疑的数字实体。也许流的性质和缓冲使得难以报告准确的位置。

实际上，所有这些实体都出现在文本中：

set(['&#x08;', '&#x0E;', '&#x1E;', '&#x1C;', '&#x18;', '&#x04;', '&#x0A;', '&#x0C;', '&#x16;', '&#x14;', '&#x06;', '&#x00;', '&#x10;', '&#x02;', '&#x0D;', '&#x1D;', '&#x0F;', '&#x09;', '&#x1B;', '&#x05;', '&#x15;', '&#x01;', '&#x03;'])

大部分都不允许。看起来这个解析器非常严格，您需要找到另一个不是那么严格的解析器，或者对XML进行预处理。

为什么ElementTree引发ParseError？

相关阅读

相关文章

相关问答

相关工具

相关文档