问题：

使用beautifulsoup和python删除某些标记

袁志专

2023-03-14

问题

我正在尝试从BeautifulSoup下载的html文件中删除诸如

和

之类的样式标记。我确实想保留标签包含的内容（比如文本），但这似乎不起作用。

我所尝试的

for url in urls:
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, 'html.parser')
    table = soup.find("div", {"class": "product_specifications bottom_l js_readmore_content"})
    print "<hr style='border-width:5px;'>"
    for style in table.find_all('style'):
        if 'style' in style.attrs:
            del style.attrs['style']
    print table

我尝试使用的URL

Python HTML解析和过滤停止词

使用Python和lxml从HTML中删除class属性

BeautifulSoup标签去除

共有2个答案

商燕七

2023-03-14

您正在查找unwrap（）。

your_soup.tag.unwrap（）

江阳羽

2023-03-14

您可以使用decompose():http://www.crummy.com/software/Beautifulsoup/bs4/doc/#decompose

如果只想清除文本或保留从树中删除的元素，请使用clear和extract（说明就在分解上面）。

类似资料：

使用python和BeautifulSoup删除不完整的标记

试图刮此网站网址使用urllib2，机械化和美丽汤。当通过浏览器呈现并使用FireBug查看时，我们可以看到带有类progress__supporters和progress_goal的div标签，如下所示。但是当我们使用urllib2时。打开/mechanize/selenium以查看网页，这些标签不可用。下面是示例代码我们使用上述代码获得以下输出。一个原因可能是因为类为“progress\
Python-循环“忘记”删除某些项目

问题内容：在这段代码中，我试图创建一个函数，该函数将从字符串中删除所有元音。我认为它应该可以正常运行，但是当我运行它时，示例文本为。返回为。它“忘记”删除最后一个。怎么会这样？问题答案：你正在修改要遍历的列表，这势必会导致某些不直观的行为。相反，请复制列表，这样就不会从迭代中删除元素。要弄清你所看到的行为，请检查一下。放在print char, textlist你的（原始）循环的开头。你可
使用BeautifulSoup查找包含某些文本的HTML标签

问题内容：我正在尝试获取HTML文档中包含以下文本模式的元素：＃\ S {11} 因此，前者将通过使用以下内容进行匹配：结果将是这样的：我可以获取所有匹配的文本（请参见上面的行）。但是我希望文本的父元素匹配，因此我可以将其用作遍历文档树的起点。在这种情况下，我希望所有h2元素都返回，而不是文本匹配。有想法吗？问题答案：印刷品：
我可以使用BeautifulSoup删除脚本标签吗？

问题内容：是否可以使用BeautifulSoup从HTML中删除脚本标签及其所有内容，还是必须使用正则表达式或其他内容？问题答案：
如何使用Python删除docx文档中的某些段落？

我有一个很大的。docx文档。它有100多个段落。然而，有一些垃圾段落，我需要删除。例如，那些需要删除的段落有一个关键字“无”。我如何使用python删除那些有关键字“none”的段落。这是我目前所拥有的，但它只能删除空白段落。我如何修改它以达到我的目的？
python使用python-pptx删除ppt某页实例

本文向大家介绍python使用python-pptx删除ppt某页实例，包括了python使用python-pptx删除ppt某页实例的使用技巧和注意事项，需要的朋友参考一下公司安排了个任务，爬取ppt资源，我爬取后打开ppt发现，最后一页是站点的宣传，需要删除。仔细阅读了python-pptx的api和国内的教程，发现没有人写了关于删除ppt中某页的功能，所以科学上网去google上搜了一下

使用beautifulsoup和python删除某些标记

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档