html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html) # 把 HTML 的内容当作参数来初始化 pyquery 对象
print(doc('li')) # 初始化的对象传入 CSS 选择器
运行结果:
<li class="item-0">first item</li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
from pyquery import PyQuery as pq
doc = pq(url='https://XXX.com') # 将网页源代码以字符串的形式传递给 pyquery 类。
# 等价于
# import requests
# doc = pq(requests.get('https://XXX.com').text)
print(doc('title'))
from pyquery import PyQuery as pq
doc = pq(filename='demo.html') # 本地HTML文件,其内容是待解析的HTML字符串
print(doc('li'))
print(doc('#container .list li'))
# 选取 id 为 container 的节点,然后再选取其内部 class 为 list 中的所有 li 节点
print(type(doc('#container .list li')))
for item in doc('#container .list li').items():
print(item.text())
items = doc('.list') # 选取 class 为 list 的节点
print(type(items))
print(items)
lis = items.find('li') # 调用 find 方法,传入 CSS 选择器,选取其内部的 li 节点。
lis = items.children('.active')