当前位置: 首页 > 知识库问答 >
问题:

如何使用Python从HTML中提取中的特定标记

赵浩邈
2023-03-14

我要提取的数据来自这个网站https://www.adobe.com/support/security/advisories/apsa11-04.html。我只想提取

发布日期:2011年12月6日最后更新:2012年1月10日漏洞标识符:APSA11-04 CVE编号:CVE-2011-2462

代码:

from bs4 import BeautifulSoup
div = soup.find("div", attrs={"id": "L0C1-body"})
for p in div.findAll("p"):
    if p.find('strong'):
        print(p.text)

输出:

Release date: December 6, 2011
Last updated: January  10, 2012
Vulnerability identifier: APSA11-04
CVE number: CVE-2011-2462
Platform: All
*Note: Adobe Reader for Android and Adobe Flash Player are not affected by this issue.

我不想要这些信息。我该如何过滤呢?

平台:全部*注意:Adobe Reader for Android和Adobe Flash Player不受此问题影响。

共有1个答案

终睿
2023-03-14

如果您知道希望在

标记之后始终有前4个

标记,则可以使用以下示例:

import requests
from bs4 import BeautifulSoup


url = "https://www.adobe.com/support/security/advisories/apsa11-04.html"
soup = BeautifulSoup(requests.get(url).content, "html.parser")

txt = "\n".join(
    map(lambda x: x.get_text(strip=True, separator=" "), soup.select("h2 ~ p")[:4])
)
print(txt)

打印:

Release date: December 6, 2011
Last updated: January  10, 2012
Vulnerability identifier: APSA11-04
CVE number: CVE-2011-2462

 类似资料:
  • 问题内容: 我正在尝试使用python HTMLParser库从HTML页面中获取值。我要保留的值在此html元素内: 到目前为止,这是我的HTMLParser类: 有人可以指出我正确的方向吗?我希望类功能获得值20。 问题答案: 从“触发”开始计数嵌套标记的数量。当我们处于以触发标签为根的子树中时,我们将数据存储在中。 解析末尾的数据保留在其中(字符串列表,如果未满足触发标签,则可能为空)。您可

  • “我妈妈有一双蓝眼睛,我爸爸有一双深绿色的眼睛”。我想用JSOUP解析这个句子,并在android textview上用粗体和彩色文本打印出来。这里的“蓝色”是大胆的蓝色。“深绿色”是大胆的颜色。 我需要解析上述html代码,并需要如下显示: 这是一个标题 我母亲有蓝色的眼睛,我父亲有深绿色的眼睛 这是另一个标题 这是一段 下面是我的程序。考虑到文档doc==获取上面的html; 有人能帮我解决吗

  • 我使用以下python代码启动Firefox网页。 在启动if之后,不知何故我知道了这个标记的xpath。 如果我现在是属性的名称,我可以使用python上的selenium webdrive使用以下命令提取属性。 所以我的输出是 请帮助我找出提取所有属性及其值的方法,即使我不知道它有哪些属性。我的预期输出是 我不确定这可能有多远,但我希望像在字典中一样,我们甚至可以在不知道键的情况下提取数据。非

  • 我目前正在刮这个网站,以建立一个汽车数据集,我有一个方程式建立循环通过网站的每一页,而刮。然而,我无法提取文本,我需要使这一工作。 下面的代码片段是我试图刮去的标记。我需要得到现场的车辆数量。 这张图片显示了我正在尝试删除的站点元素 下面是我用来刮取该元素的代码: 此代码返回以下内容: 然后我检查了一下为什么返回soup.select给我的所有内容来得到错误代码: 它返回: 为什么给我一个空名单?

  • 我有这个html 并且,我试图得到每个标签的href。 例如,

  • 我正在尝试使用Python中的BeautifulSoup包提取存在于div标记中的文本。 示例我想提取标记 内部的文本 以及 中的文本 当我运行代码时,系统崩溃并显示以下错误: ----------------------------------------------------------------------------------------------------在60###artic