复习选择web元素的方法 ,beautfulSoup,常用规则

沃博裕

2023-12-01

通过id选择元素
写法1：
element = driver.find_element_by_id(“kw”)

写法2：
from selenium.webdriver.common.by import By
element = driver.find_element(by=By.ID, value=“kw”)
Tips: by=By.ID表示以id的方式定位web元素，下面的例子有类似的写法以此类推

通过name选择元素
写法1：
cheese = driver.find_element_by_name(“cheese”)

写法2：
from selenium.webdriver.common.by import By
cheese = driver.find_element(By.NAME, “cheese”)

通过class选择元素
写法1：
cheeses = driver.find_elements_by_class_name(“cheese”)
Tips:注意，这里返回的是一个包含web元素的列表，下同
写法2：
from selenium.webdriver.common.by import By
cheeses = driver.find_elements(By.CLASS_NAME, “cheese”)

通过tag选择元素
写法1：
如果iframe这个tag在本html中是唯一的，可以根据iframe这个tag名来找到该元素
frame = driver.find_element_by_tag_name(“iframe”)

写法2：
from selenium.webdriver.common.by import By
frame = driver.find_element(By.TAG_NAME, “iframe”)

注意，通过title标签名获取title元素，打印的文本值为空：
ele2=driver.find_element_by_tag_name(‘title’)
print(ele2.text)

我们先debug看获取到的元素属性

为什么会造成这种结果？
首先和我们获取元素的方式没有任何关系
text显示的应该是网页中可见的内容。
title不在网页中，所以显示不出来。

Title是一个特殊的元素，标签内的文本表示页面的标题，
可以通过driver.title属性获取页面标题

通过超链接文本选择元素
写法1：
ele = driver.find_element_by_link_text(“转到百度”)

写法2：
from selenium.webdriver.common.by import By
ele = driver.find_element(By.LINK_TEXT, “转到百度”)

获取元素信息
拿到webelement对象，我们可以对它做一些操作，比如获取元素内部信息
这个时候操作主体由webdriver变成了webelement，调用的是webelement对象的方法
获取元素文本
使用WebElement的 text属性

ele = driver.find_element_by_id(“food”)
print ele.text

获取元素属性值
get_attribute方法

下面的代码就是获取。。。。。href属性的值
ele = driver.find_element_by_id(“baidulink”)
print ele.get_attribute(‘href’)
获取到以后，就可以判断链接是否与预期相同

或者一个元素的 style属性，比如需要判断颜色是否是红色。
ele = driver.find_element_by_id(“food”)
print ele.get_attribute(‘style’)

获取元素对应的HTML片段
那么怎么获取整个HTML呢？还是通过get_attribute方法，

第一种：整个web元素的HTML片段
只需要参数指定为outerHTML 就可以了
ele.get_attribute(‘outerHTML’)

第二种：web元素内部子元素HTML片段
只需要参数指定为’innerHTML’就可以了
ele.get_attribute(‘innerHTML’)

获取的HTML片段可以用来做什么？

Beautifulsoup用法
Beautifulsoup简称BS 是可以从HTML或XML 中提取数据的第三方库
有的时候，感觉用Selenium获取某些元素数据不太方便，
可以将其父节点的html 获取回来，
得到一个hmtl片段，然后利用BS在本地做分析

BS用途：解析HTML文本，操作对象是字符串，与浏览器无关
beatufulsoup 不能驱动网页，只能获取信息

使用Beautifulsoup分析HTML文本
安装
pip install beautifulsoup4 -i https://pypi.douban.com/simple/

还要安装一个库，因为bs里面缺省的库对html的兼容性不够
pip install html5lib
这个库对html的兼容性基本和浏览器差不多。

首先BS操作对象是字符串，假设我要对某个HTML文本做分析，那么就要将文本的字符串读取出来

获取html内容字符串，进行分析

with open(‘bs1.html’,encoding=‘utf8’) as f:
html_doc = f.read()

导入相关库，html5lib不用导入，BS会自动引用

导入 BeautifulSoup

from bs4 import BeautifulSoup

获取一个bs对象，接下来的操作都通过这个bs对象来实现

指定用html5lib来解析html文档

soup = BeautifulSoup(html_doc, “html5lib”)

根据签名称获取元素信息
soup.p
soup.title
soup.div

获取标签文本内容
soup.title.string 获取该元素本身包含的文本内容
或
soup.p.get_text() 获取该元素下所有子元素（如果有）的文本内容，包含自身的文本内容

两者的区别是？？？

参考https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#string
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#get-text

string 获取的是该元素本身直接包含的文字内容

如果一个元素有几个子节点，
如果我们想获取包含在子节点里面的内容通常就会有问题
比如第一个div元素

print(soup.div.string)

但是get_text()却可以

print(soup.div.get_text())
空白行也被认为是一个节点，返回结果连空白行也包含在内了

获取元素父节点
soup.title.parent 获取父节点
soup.p.parent.name 获取父节点标签名

获取元素属性值

中括号内的是元素的属性

print(soup.div[‘id’])
print(soup.p[‘style’])
也可以
print(soup.p.get(‘style’))

复习选择web元素的方法 ,beautfulSoup,常用规则

获取html内容字符串，进行分析

导入 BeautifulSoup

指定用html5lib来解析html文档

两者的区别是？？？

string 获取的是该元素本身直接包含的文字内容

但是get_text()却可以

中括号内的是元素的属性

selenium 里面可以根据id属性查找a元素, bs 也可以，比如根据id

根据其他html属性，比如 href查找 a元素

相关阅读

相关文章

相关问答

相关文档

复习选择web元素的方法 ,beautfulSoup,常用规则

获取html内容字符串，进行分析

导入 BeautifulSoup

指定用html5lib来解析html文档

两者的区别是？？？

string 获取的是 该元素本身直接包含的文字内容

但是get_text()却可以

中括号内的是元素的属性

selenium 里面可以根据id属性查找a元素, bs 也可以，比如根据id

根据其他html属性，比如 href查找 a元素

相关阅读

相关文章

相关问答

相关文档

string 获取的是该元素本身直接包含的文字内容