当前位置: 首页 > 面试题库 >

Python字符串操作,在html标签之间提取文本

柯鸿振
2023-03-14
问题内容

我有一个字符串:

<font face="ARIAL,HELVETICA" size="-2">  
JUL 28         </font>

(它的输出超过两行,因此其中必须有一个\ n。

我希望提取<font></font>标签之间的字符串。在这种情况下,它是7月28日,但是可能是另一个日期或其他某个数字。

1)从字体标签之间提取值的最佳方法是什么?我本以为可以提取">和之间的所有内容</

编辑:第二个问题删除。


问题答案:

尽管可以使用正则表达式解析任意HTML,但这通常是一个死亡陷阱。有很多很棒的用于解析HTML的工具,包括BeautifulSoup,它是一个Python库,可以很好地处理
损坏的 HTML。

>>> from BeautifulSoup import BeautifulSoup as BSHTML
>>> BS = BSHTML("""
... <font face="ARIAL,HELVETICA" size="-2">  
... JUL 28         </font>"""
... )
>>> BS.font.contents[0].strip()
u'JUL 28'

然后,您只需要解析日期:

>>> datetime.strptime(BS.font.contents[0].strip(), '%b %d')
>>> datetime.datetime(1900, 7, 28, 0, 0)
datetime.datetime(1900, 7, 28, 0, 0)


 类似资料:
  • 我正在尝试从 html 标签中提取字符串 我知道还有其他类似或甚至相同的问题得到了回答,但这些问题的答案似乎对我不起作用 此输出 不 注意,我使用了来自不同答案的其他正则表达式,得到了相同的结果,我也不熟悉正则表达式,所以这可能是一个无意义的问题。

  • 比如说我有如下一串: 如何仅提取“所需文本”?我猜Regex可能是最简单的方法,但Regex在我看来仍然像象形文字。

  • 问题内容: 我有一个像下面这样的文字 [:de] 15岁的BB2女士在holzbauweise的rkische Gulet的眉毛,Annehmlichkeiten的游艇和Eleganz einer的专业游艇,durch的高品质的盲人眉毛,glichen Holzverare的时尚和15岁的女孩密西西比州杜尚卡宾/ WC。Salon and Deck sind ausgesprochen gro脽z

  • 问题内容: 我有一个HTML字符串,我想检查一下其中是否有任何链接,如果有,请将它们提取出来并将它们放入数组中。我可以使用其选择器的简单性在jQuery中进行此操作,但是我找不到在PHP中使用的正确方法。 例如,字符串可能如下所示: 我如何(在PHP中)将其转换为类似于以下内容的数组: 谢谢,伊恩 问题答案: 您可以使用PHPs 库解析XML和/或HTML。如下所示的方法应该可以解决问题,以便从H

  • 问题内容: 假设我有一个字符串,而我只想提取一部分。 我只知道我感兴趣的部分之前和之后的几个字符1234。 使用字符串可以执行以下操作: 结果,这会给我。 如何在Python中做同样的事情? 问题答案: 使用正则表达式- 文档以供进一步参考 要么:

  • 问题内容: 我想从放置在和标记中的HTML页面提取文本,因此我可以开始对该页面进行标记化,以便为每个页面构造倒排索引,以便回答搜索查询。 我如何使用jsoup 获取标签 要在该参数中写入的字符串是什么? 问题答案: 这可以做的工作 这是您可以使用的所有选择器的列表。 假设您有这个html: 要获得结果,您应该使用: 要么 假设现在您具有以下复杂的html 要从两个标签中获取值,您必须执行以下操作