lxml库的基本使用

贺景铄

2023-12-01

1. 认识lxml

lxml是一款高性能的Python XML库，主要用来解析及生成xml和html文件（解析、序列化、转换）。其天生支持Xpath1.0、XSLT1.0、定制元素类，甚至 python 风格的数据绑定接口。lxml基于Cpython实现，其底层是libxml2和libxslt两个C语言库。因此具有较高的性能。

官方文档：https://lxml.de/

2. lxml中基本使用

在lxml中，lxml.etree模块是最常用的HTML、XML文档解析模块。其中lxml.etree.Element是处理xml的一个核心类，Element对象可以直观的理解为是XML中的节点。使用Element类，可以实现对XML节点、节点属性、节点内文本的操作。

2.1 安装并导入lxml模块

pip install lxml

from lxml import etree

2.2 节点操作：

1.创建节点（创建Element对象）：

root = etrre.Element('root')
print(root)

2.获取节点名称

print(root.tag)

3.添加子节点

添加子节点的方法有三种：1、直接使用SubElement方法添加子节点。2、创建一个Element对象，使用append的方法将该对象追加到父节点中。3、创建一个Element对象，使用insert方法，将对象添加到父节点指定位置。

使用SubElement方法添加：

child_sub = etree.SubElement(root, 'child_sub')

使用append方法添加：

child_append = etree.Element('child_append')
root.append(child_append)

使用insert方法添加：

child_insert = etree.Element('child_insert')
root.insert(0, child_append)  #  第一个参数为添加的位置，第二个参数为添加的Element对象

4.删除子节点：

可以使用remove()方法来删除指定子节点。使用clear()方法来清空所有子节点

root.remove(child_sub)  # 删除名字为child_sub节点
root.clear()  # 清空root的所有子节点

5.访问节点

在Element对象中，访问节点的方法有多种。

可以通过列表的方式来方位节点。
可以通过getparent()等方法来访问节点。
可以通过xpath语法来定位指定节点(暂不介绍)

(1) 通过列表的方式来访问节点：

child_sub = root[0]  # 通过下标来访问子节点
child_sub = root[0: 1][0]  # 通过切片的方式来访问节点
for c in root:  # 通过遍历来获取所有节点
    print(c.tag)
    
c_append_index = root.index(child_append)  # 获取节点的索引
print(len(root))  # 获取子节点的数量

(2) 通过方法来访问节点：

获取父节点：getarent()
获取所有子节点：getchildren()
获取根节点：getroot()
findall()：返回所有匹配的元素，返回列表
find()：返回匹配到的第一个元素

print(child_sub.getparent().tag)  # 查询父节点
print(root.getchildren())  # 查询所有子节点
print(root.getroot())  # 获取根节点
print(root.find('b'))  # 查询第一个b标签
print(root.findall('.//b'))  # 查询所有b标签

2.3 属性操作：

在Element中，节点的属性是以字典的形式存储的。

创建属性：

创建属性的方式有两种。1、在创建节点的时候创建属性。2、使用set()方法创建属性。

root = etree.Element('root', language='中文')  # 创建节点时创建属性

root.set('hello', 'python')  # 使用set方法为root节点添加属性

获取属性：

print(root.get('language'))  # 使用get方法获取属性
print(root['language'])
print(root.keys())
print(root.values())
print(root.items())

修改属性：

root['language'] = 'English'

2.4 文本操作

在lxml中访问xml文本的方式有多种，可以使用text、tail属性的方式访问文本。也可以使用xpath语法访问文本。这里只介绍使用text和tail获取和设置文本的属性的方法。xpath后面会具体介绍。

text和tail属性的区别：

xml中标签一般是成对出现的。但在HTML中则可能会出现单标签，如<html><body>text<br/>tail</body></html>。

text属性用于成对便签的读取和设置
tail属性用于单一标签的读取和设置

html = etree.Element('html')
body = etree.SubElement(html, 'body')
body.text = 'text'  # 给body标签内写入text文本内容

br = etree.SubElement('body', 'br')
br.tail = 'tail'  # 在br标签中写入tail文本内容

2.5 xml文件解析与序列化

1. xml文件解析的方法：
xml文件解析的方法有多种，常用的有fromstring、XML、HTML、parse。其中XML和HTML的参数既可以是字符串、也可以是二进制的字节码。

fromstring、XML、parse：返回的是一个Element对象，是一个节点。主要用于解析文档碎片。
parse()：返回值是一个ElementTree类型的对象，完整的xml树结构。parse主要用来解析完整的文档，而不是Element对象。
参数：
打开的文件或文件类型对象（建议以二进制形式打开
文件名或字符串
HTTP或者FTP的url。

注意：从文件名或者url解析通常比从文件对象解析要快。

xml_data = '<root>data</root>'

 # fromstring
root_str = etree.formstring(xml_data)
print(root_str.tag)

 # XML
root_xml = etree.XML(xml_data)
print(root_xml.tag)

 # HTML，如果没有<html>和<body>标签，则会自动补上
 root_html = etree.HTML(xml_data)
 print(root_html.tag)
 
 # parse中的参数应该是一个完整的xml或html,同样返回值是一个ElementTree类型的对象，完整的xml树结构。parse主要用来解析完整的文档。
tree =etree.parse('text')   #文件解析成元素树
root = tree.getroot()      #获取元素树的根节点
print etree.tostring(root, pretty_print=True)

2. xml文件序列化的方法：

我们在生成一个xml文件是有两种方式：1、将Element对象转换成一个xml字符串，然后将其写入到文件中。2、使用ElementTreee对象中的write()方法直接将xml写入文件。

root = '<root>data</root>'

# 将Element对象转换成xml字符串写入文件
root_str = element.tostring(root, pretty_print=True, xml_declartion=True, encoding='utf-8')
with open('text.xml', 'w', encoding='utf-8') as f:
    f.write(root_str)


# 将节点（Element对象）转为ElementTree对象。
tree = etree.ElementTree(root)
tree.write('text.xml', pretty_print=True, xml_declartion=True, encoding='utf-8')

参数含义：

第一个参数是xml保持的路径（包括文件名）
pretty_print：是否格式化xml(美化)
xml_declaration：是否写入xml声明，就是xml中开头第一行文字。
encoding：编码格式

补充：ElementTree对象可理解为一个完整的XML树，每个节点都是一个Element对象。而ElementPath则相当于XML中的XPath。用于搜索和定位Element元素。

2.6 lxml命名空间的处理

什么是命名空间？https://www.w3school.com.cn/xml/xml_namespaces.asp

带有命名空间的xml解析处理：

from lxml import etree

str_xml = """
<A xmlns="http://This/is/a/namespace">
    <B>dataB1</B>
    <B>dataB2</B>
    <B><C>datac</C></B>
</A>
"""

xml = etree.fromstring(str_xml)  # 解析字符串
ns = xml.nsmap  # 获取命名空间
print(ns)
print(ns[None])

>>> {None: 'http://This/is/a/namespace'}
>>> http://This/is/a/namespace

ns = xml.nsmap[None]  # 获取命名空间xmlns

# 1. 使用findall方法查找指定节点。
for item in xml.findall(f'{ns}b')
	print(item.text)
    
# 2. 使用xpath语法加命名空间查找指定节点
ns = {'x':root.nsmap[None]}  # 获取命名空间
b = root.xpath("//x:B", namespaces=ns)
print(b)

C = root.xapth("//x:B/X:C", namespaces=ns)
print(c)

注意：当xml携带有命名空间（xmlns）的时候，在查找节点时，每一级节点都需要加上命名空间。如果不携带命名空间，是无法查询到该节点的。
除此之外处理命名空间还有一个非常shao的方法，即将所有的命名空间都替换为空，将其当成普通的节点进行处理。

参考：https://blog.csdn.net/rhx_qiuzhi/article/details/105345624

3. 使用lxml解析xml案例

（1）导入lxml 的 etree 库

from lxml import etree

（2）利用etree.HTML，将html字符串（bytes类型或str类型）转化为Element对象，Element对象具有xpath的方法，返回结果的列表

html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")

（3）xpath方法返回列表的三种情况

返回空列表：根据xpath语法规则字符串，没有定位到任何元素
返回由字符串构成的列表：xpath字符串规则匹配的一定是文本内容或某属性的值
返回由Element对象构成的列表：xpath规则字符串匹配的是标签，列表中的Element对象可以继续进行xpath

from lxml import etree
text = '''
<div>
  <ul>
    <li class="item-1">
      <a href="link1.html">first item</a>
    </li>
    <li class="item-1">
      <a href="link2.html">second item</a>
    </li>
    <li class="item-inactive">
      <a href="link3.html">third item</a>
    </li>
    <li class="item-1">
      <a href="link4.html">fourth item</a>
    </li>
    <li class="item-0">
      a href="link5.html">fifth item</a>
  </ul>
</div>
'''

html = etree.HTML(text)  # 也可以使用XML和fromstring方法

# 获取所有的class属性为item-1的href属性
href_list = html.xpath('//li[@class="item-1"]/a/@href')
# 获取所有的class属性为item-1的text内容
text_list = html.xpath('//li[@class="item-1"]/a/text()')

# 组装成字典
for href, title in zip(href_list, title_list):
    print({f'{href}': f'{title}'})

注意：lxml.etree.HTML(html_str)方法可以自动补全不完整的标签。

4. 使用lxml生成一个xml文件案例：

from lxml import etree

# 创建element对象
root = etree.Element('root')
print(root.tag)

# 添加子节点
child_sub = etree.SubElement(root, 'child_sub')

child = etree.Element('child')
child_append = root.append(child)  # 通过append向root节点里面追加子节点
child_insert = root.insert(0, child)  # 通过insert向root节点开始的位置添加子节点

# 3.删除子节点
# root.remove(child2)

# 4.删除所有子节点
# root.clear()

# 5.以列表的方式操作子节点
print(len(root))
print root.index(child)  # 索引号

# 6.生成xml字符串写入xml文件
# 将Element对象转换成xml字符串写入文件
root_str = etree.tostring(root, pretty_print=True, xml_declaration=True, encoding='utf-8')
with open('text.xml', 'wb') as f:
    f.write(root_str)

# 将节点（Element对象）转为ElementTree对象。
tree = etree.ElementTree(root)
tree.write('text.xml', pretty_print=True, xml_declartion=True, encoding='utf-8')

参考链接：https://blog.csdn.net/ydw_ydw/article/details/82227699

5. 补充：xPath语法

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML文档中对元素和属性进行遍历。
W3School官方文档：http://www.w3school.com.cn/xpath/index.asp
提取xml、html中的数据一般需要将lxml模块和xpath语法配合使用

5.1 节点选择语法：

xpath定位节点以及提取属性或文本内容的语法：

表达式	描述
nodename	选中该元素。
/	从根节点选取、或者是元素和元素间的过渡。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
`.`	选取当前节点。
`..`	选取当前节点的父节点。
@	选取属性。
text()	选取文本。

注意：@符号出现在末尾时，用来提取属性；出现在[]中时是用来匹配属性

选取未知节点的语法：
可以通过通配符来选取未知的html、xml的元素

通配符	描述
*	匹配任何元素节点。
node()	匹配任何类型的节点。

全部的标签：//*
全部的属性：//node()

5.2 节点修饰语法：

可以根据标签的属性值、下标等来获取特定的节点

路径表达式	结果
//title[@lang=“eng”]	选择lang属性值为eng的所有title元素
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()>1]	选择bookstore下面的book元素，从第二个开始选择
//book/title[text()=‘Harry Potter’]	选择所有book下的title元素，仅仅选择文本为Harry Potter的title元素
//book/title[contains(text(), “Harry”)]	选择所有book下的文本包含Harry的title元素
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

关于xpath的下标：

在xpath中，第一个元素的位置是1
最后一个元素的位置是last()
倒数第二个是last()-1

5.3 谷歌浏览器xpath helper插件的安装和使用

要想利用lxml模块提取数据，需要我们掌握xpath语法规则。接下来我们就来了解一下xpath helper插件，它可以帮助我们练习xpath语法。

xpath helper插件的安装:

1.下载Chrome插件 XPath Helper：

可以在chrome应用商城进行下载，如果无法下载，也可以从下面的链接进行下载
下载地址：https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b

2.把文件的后缀名crx改为rar，然后解压到同名文件夹中

3.把解压后的文件夹拖入到已经开启开发者模式的chrome浏览器扩展程序界面

4.重启浏览器后，访问url之后在页面中点击xpath图标，就可以使用了

5.如果是linux或macOS操作系统，无需操作上述的步骤2，直接将crx文件拖入已经开启开发者模式的chrome浏览器扩展程序界面