当前位置: 首页 > 面试题库 >

使用BeautifulSoup查找特定标签

柴兴修
2023-03-14
问题内容

我可以使用BS轻松遍历通用标签,但是我不知道如何查找特定标签。例如,我怎么能找到所有的出现<div style="width=300px;">?BS可以吗?


问题答案:

以下应该工作

soup = BeautifulSoup(htmlstring)
soup.findAll('div', style="width=300px;")

有两种搜索标签的方法。

  • http://www.crummy.com/software/BeautifulSoup/documentation.html

有关更多文本的理解和使用

  • http://lxml.de/elementsoup.html


 类似资料:
  • 问题内容: 我尝试了soup.find(’!-‘),但似乎没有用。提前致谢。 编辑:感谢您有关如何查找所有评论的提示。我有一个后续问题。如何专门搜索评论? 例如,我有以下注释标记: 我真的只想要这些东西。“ 110518”是我要用作搜索目标的日期YYMMDD。但是,我不知道如何在特定的注释标签中找到某些内容。 问题答案: Pyparsing允许您使用内置表达式搜索HTML注释,并附加解析时回调以验

  • 我正试图用漂亮的汤刮一个汇合页的身体。当使用Confluence API时,我会得到以下正文(这只是其中的一部分): 我已经搜索了我的屁股,但不知何故,我似乎不明白如何搜索一个段落与特定的文本。 另一件我认识但不明白的事情是:当我使用:搜索所有段落时,我会找到该段落,但它包含了所有子元素的所有文本,因此段落文本如下所示:“System Status:GreenIN Operation”

  • 问题内容: 我正在尝试获取HTML文档中包含以下文本模式的元素:#\ S {11} 因此,前者将通过使用以下内容进行匹配: 结果将是这样的: 我可以获取所有匹配的文本(请参见上面的行)。但是我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点。在这种情况下,我希望所有h2元素都返回,而不是文本匹配。 有想法吗? 问题答案: 印刷品:

  • 我试图创建一个preg_匹配,在HTML文档中查找一系列标记。 HTML示例: 我需要找到带有div class=“importantclass”的标签和一个包含特定指针文本的后续p标签的组合。 然后我需要返回开始div类的位置。注意:我不想获得匹配,因为importantclass div第一次出现。 有没有可能不使用DOM而只使用regexp来实现这一点? 谢谢你的提示!

  • 问题内容: 我有以下html(用标记的换行符): 如何查找 我 要查找的 文本 ?下面的代码返回第一个发现的值,因此我需要以某种方式按 固定文本 进行过滤。 更新 。如果我使用以下代码: 然后它只返回 固定文本: 。 问题答案: 您可以将正则表达式传递给的text参数,如下所示:

  • 问题内容: 我正在寻找一种使用findAll来获取两个标签的方式,按照它们在页面上出现的顺序。 目前我有: 如果我在仅带有’em’或’strong’的页面上使用该标签,则它将获得所有这些标签,如果我在同时使用这两个标签的页面上将获得’strong’标签。 有没有办法做到这一点?我主要关心的是保留标签的查找顺序。 问题答案: 您可以传递一个list,以找到任何给定的标签: