将XML文件解析为Python对象

阎志义

2023-03-14

问题内容：

我有一个看起来像这样的XML文件：

<encspot>
  <file>
   <Name>some filename.mp3</Name>
   <Encoder>Gogo (after 3.0)</Encoder>
   <Bitrate>131</Bitrate>
   <Mode>joint stereo</Mode>
   <Length>00:02:43</Length>
   <Size>5,236,644</Size>
   <Frame>no</Frame>
   <Quality>good</Quality>
   <Freq.>44100</Freq.>
   <Frames>6255</Frames>
   ..... and so forth ......
  </file>
  <file>....</file>
</encspot>

我想将其读入python对象，类似于字典列表。因为标记是绝对固定的，所以我很想使用正则表达式（我非常擅长使用那些正则表达式）。但是，我想我会检查是否有人知道如何在此处轻松避免使用正则表达式。我对SAX或其他解析没有太多经验，但是我愿意学习。

我期待向您展示如何在不使用regexes的情况下快速完成此操作。谢谢你的帮助！

问题答案：

如果您认为正则表达式比这更简单，那么我心爱的SD Chargers帽子就不适合您使用：

#!/usr/bin/env python
import xml.etree.cElementTree as et

sxml="""
<encspot>
  <file>
   <Name>some filename.mp3</Name>
   <Encoder>Gogo (after 3.0)</Encoder>
   <Bitrate>131</Bitrate>
  </file>
  <file>
   <Name>another filename.mp3</Name>
   <Encoder>iTunes</Encoder>
   <Bitrate>128</Bitrate>  
  </file>
</encspot>
"""
tree=et.fromstring(sxml)

for el in tree.findall('file'):
    print '-------------------'
    for ch in el.getchildren():
        print '{:>15}: {:<30}'.format(ch.tag, ch.text)

print "\nan alternate way:"  
el=tree.find('file[2]/Name')  # xpath
print '{:>15}: {:<30}'.format(el.tag, el.text)

输出：

-------------------
           Name: some filename.mp3             
        Encoder: Gogo (after 3.0)              
        Bitrate: 131                           
-------------------
           Name: another filename.mp3          
        Encoder: iTunes                        
        Bitrate: 128

an alternate way:
           Name: another filename.mp3

如果您对正则表达式的吸引力不那么强，那么下面的列表理解功能同样令人难以理解，可以创建数据结构：

[(ch.tag,ch.text) for e in tree.findall('file') for ch in e.getchildren()]

它<file>以文档顺序创建XML子级的元组列表：

[('Name', 'some filename.mp3'), 
 ('Encoder', 'Gogo (after 3.0)'), 
 ('Bitrate', '131'), 
 ('Name', 'another filename.mp3'), 
 ('Encoder', 'iTunes'), 
 ('Bitrate', '128')]

显然，只要多花点时间，再多加一点考虑，就可以使用ElementTree从XML创建所需的任何数据结构。它是Python发行版的一部分。

编辑

高尔夫代码开了！

[{item.tag: item.text for item in ch} for ch in tree.findall('file')] 
[ {'Bitrate': '131', 
   'Name': 'some filename.mp3', 
   'Encoder': 'Gogo (after 3.0)'}, 
  {'Bitrate': '128', 
   'Name': 'another filename.mp3', 
   'Encoder': 'iTunes'}]

如果您的XML仅包含该file部分，则可以选择您的高尔夫。如果您的XML有其他标签，其他部分，则需要说明孩子所在的部分，并且需要使用findall

在Effbot.org上有关于ElementTree的教程。

将XML文件解析为Python对象

相关阅读

相关文章

相关问答

相关工具

相关文档