当前位置: 首页 > 知识库问答 >
问题:

使用beautifulsoup和python删除某些标记

袁志专
2023-03-14

问题

我正在尝试从BeautifulSoup下载的html文件中删除诸如

之类的样式标记。我确实想保留标签包含的内容(比如文本),但这似乎不起作用。

我所尝试的

for url in urls:
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, 'html.parser')
    table = soup.find("div", {"class": "product_specifications bottom_l js_readmore_content"})
    print "<hr style='border-width:5px;'>"
    for style in table.find_all('style'):
        if 'style' in style.attrs:
            del style.attrs['style']
    print table

我尝试使用的URL

Python HTML解析和过滤停止词

使用Python和lxml从HTML中删除class属性

BeautifulSoup标签去除

共有2个答案

商燕七
2023-03-14

您正在查找unwrap()。

your_soup.tag.unwrap()

江阳羽
2023-03-14

您可以使用decompose():http://www.crummy.com/software/Beautifulsoup/bs4/doc/#decompose

如果只想清除文本或保留从树中删除的元素,请使用clearextract(说明就在分解上面)。

 类似资料:
  • 试图刮此网站网址使用urllib2,机械化和美丽汤。当通过浏览器呈现并使用FireBug查看时,我们可以看到带有类progress__supporters和progress_goal的div标签,如下所示。 但是当我们使用urllib2时。打开/mechanize/selenium以查看网页,这些标签不可用。下面是示例代码 我们使用上述代码获得以下输出。 一个原因可能是因为类为“progress\

  • 问题内容: 在这段代码中,我试图创建一个函数,该函数将从字符串中删除所有元音。我认为它应该可以正常运行,但是当我运行它时,示例文本为。返回为。它“忘记”删除最后一个。怎么会这样? 问题答案: 你正在修改要遍历的列表,这势必会导致某些不直观的行为。相反,请复制列表,这样就不会从迭代中删除元素。 要弄清你所看到的行为,请检查一下。放在print char, textlist你的(原始)循环的开头。你可

  • 问题内容: 我正在尝试获取HTML文档中包含以下文本模式的元素:#\ S {11} 因此,前者将通过使用以下内容进行匹配: 结果将是这样的: 我可以获取所有匹配的文本(请参见上面的行)。但是我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点。在这种情况下,我希望所有h2元素都返回,而不是文本匹配。 有想法吗? 问题答案: 印刷品:

  • 问题内容: 是否可以使用BeautifulSoup从HTML中删除脚本标签及其所有内容,还是必须使用正则表达式或其他内容? 问题答案:

  • 我有一个很大的。docx文档。它有100多个段落。然而,有一些垃圾段落,我需要删除。例如,那些需要删除的段落有一个关键字“无”。我如何使用python删除那些有关键字“none”的段落。这是我目前所拥有的,但它只能删除空白段落。我如何修改它以达到我的目的?

  • 本文向大家介绍python使用python-pptx删除ppt某页实例,包括了python使用python-pptx删除ppt某页实例的使用技巧和注意事项,需要的朋友参考一下 公司安排了个任务,爬取ppt资源,我爬取后打开ppt发现,最后一页是站点的宣传,需要删除。 仔细阅读了python-pptx的api和国内的教程,发现没有人写了关于删除ppt中某页的功能,所以科学上网去google上搜了一下