我想用python解析HTML文件,但BeautifulSoup遗漏了一些关键标记。
网站上HTML文件的部分看起来像这样,包含所有子div。HTML代码段
但是当使用美汤美化功能时,它看起来是这样的,没有任何子div。来自python的超文本标记语言片段
我使用的代码如下:
from bs4 import BeautifulSoup
import urllib.request
#A random plus code, the %2B is just a +
PLUS_CODE = "792F7C4F%2B54"
url = "https://www.plus.codes/" + PLUS_CODE
hdr = {"User-Agent" : "Mozilla/5.0"}
req = urllib.request.Request(url, headers=hdr)
r = urllib.request.urlopen(req)
r_tags = r.read().decode('utf-8')
soup = BeautifulSoup(r_tags, "lxml")
print(soup.prettify())
最终的结果是,我无法联系到children div并提取我需要的文本。
尝试使用“lxml”而不是“html”。BeautifulSoup方法中的解析器'。也许这会解决问题。如果没有,请共享一些代码。
我正在学习如何使用含硒的靓汤进行刮食,我发现了一个有多个表格的网站,并找到了表格标签(第一次处理它们)。我正在学习如何尝试从每个表中删除这些文本,并将每个元素附加到列表中。首先我试着刮第一张桌子,剩下的我想自己做。但由于某些原因,我无法访问标签。 我还合并了selenium来访问这些站点,因为当我将指向站点的链接复制到另一个选项卡上时,出于某种原因,表列表会消失。 到目前为止,我的代码是: 有人能
我正在抓取一个谷歌学者个人资料页面,现在我有来自漂亮的汤库的python代码,它从页面上收集数据: 我还拥有selenium库中的python代码,它可以自动打开配置文件页面,单击“显示更多”按钮: 如何将这两个代码块组合起来,以便单击显示更多按钮,并刮掉整个页面?提前感谢!
我正在尝试将表从网站解析到本地数据帧。 以下是html: 这是我的密码: 但是我遇到了这个错误,无法继续:AttributeError:ResultSet对象没有“find_all”属性。您可能将元素列表视为单个元素。当您打算调用find()时,是否调用了find_all()? 有人能帮帮我吗? 我会非常感激的。 提前感谢。
我希望从< code>div内的标题和< code >内的文本中提取文本字符串 我可以用<code>汤得到标题。h1</code>,但我想获得特定于div<code>中的<code>h1</code> 超文本标记语言:
我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型,我想从标签中提取“src”链接。以下是我的标签: 我怎样才能提取 从这个标签?我试过了 但我收到了Keyerror。
考虑一下这段代码: 它只打印“divTag” 更新: 我基本上想在'a'标签中提取“字符串”值。