问题：

如何使用Python从HTML中提取中的特定标记

赵浩邈

2023-03-14

我要提取的数据来自这个网站https://www.adobe.com/support/security/advisories/apsa11-04.html。我只想提取

发布日期：2011年12月6日最后更新：2012年1月10日漏洞标识符:APSA11-04 CVE编号：CVE-2011-2462

代码：

from bs4 import BeautifulSoup
div = soup.find("div", attrs={"id": "L0C1-body"})
for p in div.findAll("p"):
    if p.find('strong'):
        print(p.text)

输出：

Release date: December 6, 2011
Last updated: January  10, 2012
Vulnerability identifier: APSA11-04
CVE number: CVE-2011-2462
Platform: All
*Note: Adobe Reader for Android and Adobe Flash Player are not affected by this issue.

我不想要这些信息。我该如何过滤呢？

平台：全部*注意：Adobe Reader for Android和Adobe Flash Player不受此问题影响。

共有1个答案

终睿

2023-03-14

如果您知道希望在

标记之后始终有前4个

标记，则可以使用以下示例：

import requests
from bs4 import BeautifulSoup


url = "https://www.adobe.com/support/security/advisories/apsa11-04.html"
soup = BeautifulSoup(requests.get(url).content, "html.parser")

txt = "\n".join(
    map(lambda x: x.get_text(strip=True, separator=" "), soup.select("h2 ~ p")[:4])
)
print(txt)

打印：

Release date: December 6, 2011
Last updated: January  10, 2012
Vulnerability identifier: APSA11-04
CVE number: CVE-2011-2462

类似资料：

如何使用python HTMLParser库从特定的div标签提取数据？

问题内容：我正在尝试使用python HTMLParser库从HTML页面中获取值。我要保留的值在此html元素内：到目前为止，这是我的HTMLParser类：有人可以指出我正确的方向吗？我希望类功能获得值20。问题答案：从“触发”开始计数嵌套标记的数量。当我们处于以触发标签为根的子树中时，我们将数据存储在中。解析末尾的数据保留在其中（字符串列表，如果未满足触发标签，则可能为空）。您可
如何使用JSOUP从html的p标记中提取span中的颜色？

“我妈妈有一双蓝眼睛，我爸爸有一双深绿色的眼睛”。我想用JSOUP解析这个句子，并在android textview上用粗体和彩色文本打印出来。这里的“蓝色”是大胆的蓝色。“深绿色”是大胆的颜色。我需要解析上述html代码，并需要如下显示：这是一个标题我母亲有蓝色的眼睛，我父亲有深绿色的眼睛这是另一个标题这是一段下面是我的程序。考虑到文档doc==获取上面的html；有人能帮我解决吗
使用python selenium[duplicate]从HTML标记中提取占位符

我使用以下python代码启动Firefox网页。在启动if之后，不知何故我知道了这个标记的xpath。如果我现在是属性的名称，我可以使用python上的selenium webdrive使用以下命令提取属性。所以我的输出是请帮助我找出提取所有属性及其值的方法，即使我不知道它有哪些属性。我的预期输出是我不确定这可能有多远，但我希望像在字典中一样，我们甚至可以在不知道键的情况下提取数据。非
无法使用Python的Beautiful Soup从特定span标记中提取文本

我目前正在刮这个网站，以建立一个汽车数据集，我有一个方程式建立循环通过网站的每一页，而刮。然而，我无法提取文本，我需要使这一工作。下面的代码片段是我试图刮去的标记。我需要得到现场的车辆数量。这张图片显示了我正在尝试删除的站点元素下面是我用来刮取该元素的代码：此代码返回以下内容：然后我检查了一下为什么返回soup.select给我的所有内容来得到错误代码：它返回：为什么给我一个空名单？
使用java和jsoup从html标记中提取值

我有这个html 并且，我试图得到每个标签的href。例如，
如何使用BeautifulSoup和python从div标记中提取文本

我正在尝试使用Python中的BeautifulSoup包提取存在于div标记中的文本。示例我想提取标记内部的文本以及中的文本当我运行代码时，系统崩溃并显示以下错误： ----------------------------------------------------------------------------------------------------在60###artic

如何使用Python从HTML中提取中的特定标记

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档