当前位置：首页 > 面试题库 >

使用正则表达式查找标签的Beautiful Soup？

瞿博易

2023-03-14

问题内容：

我真的很希望能够允许Beautiful Soup匹配任何标签列表，就像这样。我知道attr接受正则表达式，但是美丽的汤中有什么可以让您这样做的？

soup.findAll("(a|div)")

输出：

<a> ASDFS
<div> asdfasdf
<a> asdfsdf

我的目标是创建一个可以从站点抓取表格的刮板。有时标签的名称不一致，我希望能够输入标签列表来命名表的“数据”部分。

问题答案：

find_all()
是Beautiful Soup搜索API中最受欢迎的方法。

您可以传递各种过滤器。另外，传递列表以查找多个标签：

>>> soup.find_all(['a', 'div'])

范例：

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<html><body><div>asdfasdf</div><p><a>foo</a></p></body></html>')
>>> soup.find_all(['a', 'div'])
[<div>asdfasdf</div>, <a>foo</a>]

或者，您可以使用正则表达式查找包含a或的标签div：

>>> import re
>>> soup.find_all(re.compile("(a|div)"))

类似资料：

使用正则表达式查找中心标签之间的所有内容

所以我使用一个供应商应用程序，它使用regex从我的站点中删除代码。我有一个完整的div，我想使用regex控件找到并删除它，但是当我尝试时，换行和div挡住了我的路。有人有想法吗？我正在努力。?但是就像我说的，用断线来思考，它会阻止它收集所有的东西。
查找替换的正则表达式

在这个问题的背景下，我想做以下修改：查找： funcA（参数0，参数1，参数2，参数3）；替换： funcA可以有除param0之外的任意数量的参数。怎么做呢？为简单起见，忽略基本情况，即当传递给funcA的参数仅为param0时。 funcA是：职能是：编辑：参数（param1，param2..）只是包含字母的字符串。
正则表达式剥离HTML标签

问题内容：我有这个HTML输入：我想使用正则表达式删除HTML标记，以便输出为：谁能建议使用正则表达式执行此操作？问题答案：您可以使用称为Jericho Html解析器的HTML解析器。您可以从这里下载-http://jericho.htmlparser.net/docs/index.html Jericho HTML Parser是一个Java库，允许对HTML文档的各个部分（包括服
使用单引号查找的Java正则表达式Bug？

null
标点的正则表达式

问题内容：因此，我对正则表达式完全陌生，并且正在尝试使用Java 来查找输入字符串中的标点符号。我不知道会提前得到哪种标点符号，只是（1）！，？，。，…都是有效的标点符号，以及（2）“ <”和“>”表示特殊含义，并且不算作标点符号。该程序本身会伪随机地构建短语，我想在它经历随机过程之前先删除句子结尾处的标点符号。我可以用任何标点符号匹配整个单词，但匹配器只为我提供该单词的索引。换一种说
用于提取标签属性的正则表达式

问题内容：我正在尝试提取锚标记（）的属性。到目前为止，我有这个表达：适用于像和（单引号）但不适用于不带引号的字符串：如何修改我的正则表达式，使其与不带引号的属性一起使用？还是有更好的方法来做到这一点？更新：谢谢您到目前为止的所有好评和建议。我没有提到一件事：很遗憾，我必须修补/修改不是由我编写的代码。而且没有时间/金钱从头开始重写这些东西。问题答案：如果你有一个像此正则表达式

相关阅读

PowerShell使用正则表达式查找字符串实例 Java标点正则表达式 Java正则表达式使用正则表达式以匹配结束的HTML标签正则表达式匹配没有标签的链接

相关文章

Perl 正则表达式 Ruby 正则表达式 MongoDB正则表达式 C#正则表达式 Java正则表达式

相关问答

xml标记的正则表达式 RFC822标准的正则表达式与正则表达式匹配的正则表达式用正则表达式在斯威夫表达式中查找R代码使用正则表达式的 bash 查找不区分大小写

相关工具

正则表达式测试器 WizTools.org正则表达式测试工具 Quartz 表达式生成器标签云Demo Google地图JSP标签库

相关文档

正则表达式正则表达式（regular expression）Java 正则表达式教程 Python 正则表达式操作指南 java.util.regex 正则表达式中文教程