用Python处理XML真的很简单吗？

祖迪

2023-03-14

问题内容：

如果我举个例子，也许我能最好地解释：假设以下内容-我认为这是XML在Web服务中（错误）使用的一个很好的例子-
是我从http请求到http://www.google的响应.com
/ ig / api？weather = 94043

<xml_api_reply version="1">
  <weather module_id="0" tab_id="0" mobile_row="0" mobile_zipped="1" row="0" section="0" >
    <forecast_information>
      <city data="Mountain View, CA"/>
      <postal_code data="94043"/>
      <latitude_e6 data=""/>
      <longitude_e6 data=""/>
      <forecast_date data="2010-06-23"/>
      <current_date_time data="2010-06-24 00:02:54 +0000"/>
      <unit_system data="US"/>
    </forecast_information>
    <current_conditions>
      <condition data="Sunny"/>
      <temp_f data="68"/>
      <temp_c data="20"/>
      <humidity data="Humidity: 61%"/>
      <icon data="/ig/images/weather/sunny.gif"/>
      <wind_condition data="Wind: NW at 19 mph"/>
    </current_conditions>
    ...
    <forecast_conditions>
      <day_of_week data="Sat"/>
      <low data="59"/>
      <high data="75"/>
      <icon data="/ig/images/weather/partly_cloudy.gif"/>
      <condition data="Partly Cloudy"/>
    </forecast_conditions>
  </weather>
</xml_api_reply>

加载/解析此类文档后，我希望能够像说的那样简单地访问信息

>>> xml['xml_api_reply']['weather']['forecast_information']['city'].data
'Mountain View, CA'

要么

>>> xml.xml_api_reply.weather.current_conditions.temp_f['data']
'68'

从我到目前为止所看到的，这似乎ElementTree是最接近我梦想的。但这还不存在，使用XML时仍然有些麻烦。OTOH，我想的并不是那么复杂-
可能只是解析器之上的薄薄的单板-但这可以减少处理XML的烦恼。有这样的魔术吗？（如果没有，为什么？）

PS。请注意，我已经尝试过BeautifulSoup了，尽管我喜欢它的方法，但是它存在空<element/>s的实际问题-请参阅以下注释中的示例。

问题答案：

您想要薄木皮吗？这很容易煮。尝试以下围绕ElementTree的琐碎包装器作为起点：

# geetree.py
import xml.etree.ElementTree as ET

class GeeElem(object):
    """Wrapper around an ElementTree element. a['foo'] gets the
       attribute foo, a.foo gets the first subelement foo."""
    def __init__(self, elem):
        self.etElem = elem

    def __getitem__(self, name):
        res = self._getattr(name)
        if res is None:
            raise AttributeError, "No attribute named '%s'" % name
        return res

    def __getattr__(self, name):
        res = self._getelem(name)
        if res is None:
            raise IndexError, "No element named '%s'" % name
        return res

    def _getelem(self, name):
        res = self.etElem.find(name)
        if res is None:
            return None
        return GeeElem(res)

    def _getattr(self, name):
        return self.etElem.get(name)

class GeeTree(object):
    "Wrapper around an ElementTree."
    def __init__(self, fname):
        self.doc = ET.parse(fname)

    def __getattr__(self, name):
        if self.doc.getroot().tag != name:
            raise IndexError, "No element named '%s'" % name
        return GeeElem(self.doc.getroot())

    def getroot(self):
        return self.doc.getroot()

您可以这样调用它：

>>> import geetree
>>> t = geetree.GeeTree('foo.xml')
>>> t.xml_api_reply.weather.forecast_information.city['data']
'Mountain View, CA'
>>> t.xml_api_reply.weather.current_conditions.temp_f['data']
'68'

用Python处理XML真的很简单吗？

相关阅读

相关文章

相关问答

相关工具

相关文档