当前位置：首页 > 面试题库 >

Python字符串操作，在html标签之间提取文本

柯鸿振

2023-03-14

问题内容：

我有一个字符串：

<font face="ARIAL,HELVETICA" size="-2">  
JUL 28         </font>

（它的输出超过两行，因此其中必须有一个\ n。

我希望提取<font></font>标签之间的字符串。在这种情况下，它是7月28日，但是可能是另一个日期或其他某个数字。

1）从字体标签之间提取值的最佳方法是什么？我本以为可以提取">和之间的所有内容</。

编辑：第二个问题删除。

问题答案：

尽管可以使用正则表达式解析任意HTML，但这通常是一个死亡陷阱。有很多很棒的用于解析HTML的工具，包括BeautifulSoup，它是一个Python库，可以很好地处理
损坏的 HTML。

>>> from BeautifulSoup import BeautifulSoup as BSHTML
>>> BS = BSHTML("""
... <font face="ARIAL,HELVETICA" size="-2">  
... JUL 28         </font>"""
... )
>>> BS.font.contents[0].strip()
u'JUL 28'

然后，您只需要解析日期：

>>> datetime.strptime(BS.font.contents[0].strip(), '%b %d')
>>> datetime.datetime(1900, 7, 28, 0, 0)
datetime.datetime(1900, 7, 28, 0, 0)

类似资料：

提取html标记之间的字符串

我正在尝试从 html 标签中提取字符串我知道还有其他类似或甚至相同的问题得到了回答，但这些问题的答案似乎对我不起作用此输出不注意，我使用了来自不同答案的其他正则表达式，得到了相同的结果，我也不熟悉正则表达式，所以这可能是一个无意义的问题。
如何使用 C# 在标签之间提取字符串？

比如说我有如下一串: 如何仅提取“所需文本”？我猜Regex可能是最简单的方法，但Regex在我看来仍然像象形文字。
在MySQL中的子字符串之间提取文本

问题内容：我有一个像下面这样的文字 [：de] 15岁的BB2女士在holzbauweise的rkische Gulet的眉毛，Annehmlichkeiten的游艇和Eleganz einer的专业游艇，durch的高品质的盲人眉毛，glichen Holzverare的时尚和15岁的女孩密西西比州杜尚卡宾/ WC。Salon and Deck sind ausgesprochen gro脽z
PHP字符串操作：提取hrefs

问题内容：我有一个HTML字符串，我想检查一下其中是否有任何链接，如果有，请将它们提取出来并将它们放入数组中。我可以使用其选择器的简单性在jQuery中进行此操作，但是我找不到在PHP中使用的正确方法。例如，字符串可能如下所示：我如何（在PHP中）将其转换为类似于以下内容的数组：谢谢，伊恩问题答案：您可以使用PHPs 库解析XML和/或HTML。如下所示的方法应该可以解决问题，以便从H
Python -如何提取两个标记之间的子字符串？

问题内容：假设我有一个字符串，而我只想提取一部分。我只知道我感兴趣的部分之前和之后的几个字符1234。使用字符串可以执行以下操作：结果，这会给我。如何在Python中做同样的事情？问题答案：使用正则表达式- 文档以供进一步参考要么：
如何提取之间的文本标签

问题内容：我想从放置在和标记中的HTML页面提取文本，因此我可以开始对该页面进行标记化，以便为每个页面构造倒排索引，以便回答搜索查询。我如何使用jsoup 获取标签要在该参数中写入的字符串是什么？问题答案：这可以做的工作这是您可以使用的所有选择器的列表。假设您有这个html：要获得结果，您应该使用：要么假设现在您具有以下复杂的html 要从两个标签中获取值，您必须执行以下操作

相关阅读

在Java中提取两个字符串之间的字符串使用python提取文本文件中两个字符串之间的值 Android从字符串获取HTML图像标签 Python expandtabs字符串操作从字符串中删除HTML标签

相关文章

javascript基础之操作符 Python文件基本操作 Python dict字典基本操作 Python字符串拼接（包含字符串拼接数字）Python Pandas处理字符串

相关问答

在JS replaceAll操作期间忽略给定字符串中的html标记（特别是标记）使用jsoup或regex在标题标记之间提取html标记如何使用JSoup将标签和标签之间的文本提取到列表中获取两个html标记之间的文本 html - HTML中的Ruby标签之间的间隔问题？

相关工具

标签云Demo 自动文字提示列表 Google地图JSP标签库 TableView的各种操作应用之间调用

相关文档

KAG 标签文档 v1.0 学习 RxJS 操作符 Python 自动化测试之实操 Python 正则表达式操作指南 Python 取证中文教程