问题：

靓汤不留标签

巫马正卿

2023-03-14

我想用python解析HTML文件，但BeautifulSoup遗漏了一些关键标记。

网站上HTML文件的部分看起来像这样，包含所有子div。HTML代码段

但是当使用美汤美化功能时，它看起来是这样的，没有任何子div。来自python的超文本标记语言片段

我使用的代码如下：

from bs4 import BeautifulSoup
import urllib.request

#A random plus code, the %2B is  just a +

PLUS_CODE = "792F7C4F%2B54"
url = "https://www.plus.codes/" + PLUS_CODE

hdr = {"User-Agent" : "Mozilla/5.0"}
req = urllib.request.Request(url, headers=hdr)
r = urllib.request.urlopen(req)
r_tags = r.read().decode('utf-8')
soup = BeautifulSoup(r_tags, "lxml")

print(soup.prettify())

最终的结果是，我无法联系到children div并提取我需要的文本。

共有1个答案

东方方伟

2023-03-14

尝试使用“lxml”而不是“html”。BeautifulSoup方法中的解析器'。也许这会解决问题。如果没有，请共享一些代码。

类似资料：

富硒靓汤

我正在学习如何使用含硒的靓汤进行刮食，我发现了一个有多个表格的网站，并找到了表格标签（第一次处理它们）。我正在学习如何尝试从每个表中删除这些文本，并将每个元素附加到列表中。首先我试着刮第一张桌子，剩下的我想自己做。但由于某些原因，我无法访问标签。我还合并了selenium来访问这些站点，因为当我将指向站点的链接复制到另一个选项卡上时，出于某种原因，表列表会消失。到目前为止，我的代码是：有人能
硒和靓汤一起使用

我正在抓取一个谷歌学者个人资料页面，现在我有来自漂亮的汤库的python代码，它从页面上收集数据：我还拥有selenium库中的python代码，它可以自动打开配置文件页面，单击“显示更多”按钮：如何将这两个代码块组合起来，以便单击显示更多按钮，并刮掉整个页面？提前感谢！
ResultSet对象没有属性find_all。靓汤

我正在尝试将表从网站解析到本地数据帧。以下是html：这是我的密码：但是我遇到了这个错误，无法继续：AttributeError:ResultSet对象没有“find_all”属性。您可能将元素列表视为单个元素。当您打算调用find（）时，是否调用了find_all（）？有人能帮帮我吗？我会非常感激的。提前感谢。
提取标题和强标签与美丽汤

我希望从< code>div内的标题和< code >内的文本中提取文本字符串我可以用＜code＞汤得到标题。h1＜/code＞，但我想获得特定于div＜code＞中的＜code＞h1＜/code＞超文本标记语言：
从美丽汤标签中提取src

我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型，我想从标签中提取“src”链接。以下是我的标签：我怎样才能提取从这个标签？我试过了但我收到了Keyerror。
使用美丽的汤解析< ul >标签

考虑一下这段代码：它只打印“divTag” 更新: 我基本上想在'a'标签中提取“字符串”值。

靓汤不留标签

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档