当前位置: 首页 > 面试题库 >

如何使用BeautifulSoup bs4获取HTML标签的内部文本值?

王棋
2023-03-14
问题内容

使用BeautifulSoup bs4时,如何从HTML标签内部获取文本?当我运行此行时:

oname = soup.find("title")

我得到这样的title标签:

<title>page name</title>

现在我只想获取其中的内部文本page name,不带标签。怎么做?


问题答案:

使用.text从标记中获取文本。

oname = soup.find("title")
oname.text

要不就 soup.title.text

In [4]: from bs4 import BeautifulSoup    
In [5]: import  requests
In [6]: r = requests.get("http://stackoverflow.com/questions/27934387/how-to-retrieve-information-inside-a-tag-with-python/27934403#27934387")    
In [7]: BeautifulSoup(r.content).title.text
Out[7]: u'html - How to Retrieve information inside a tag with python - Stack Overflow'

要打开文件并使用文本作为名称,请像使用其他任何字符串一样简单地使用它:

with open(oname.text, 'w') as f


 类似资料:
  • 问题内容: 我正在使用Jsoup库读取URL。该网址的一些标记中包含文本。我可以在每个标签中获取文本吗?请注意,我不要求解析Javascript文件,因为我已经知道JSoup不允许这样做。URL的实际源代码在script标签中包含文本,我需要这样做。 这是源代码中的脚本标签之一: 问题答案: 是。您可以使用Element#getElementsByTag()获得所有标签。每个脚本标签将由DataN

  • 问题内容: 我将列出用户将从中选择的地址列表,然后将返回地址文本。我需要使用,因为不允许换行。 在Label类中,踢球者没有类似方法… 我知道我可以做类似的事情: 但是,我有一个5-20地址的列表,其中包含多个单独的,这将很困难b / c,我无法识别有效标签的位置。我只想访问激活的窗口小部件内容。 是否使用了正确的小部件? 问题答案: 要从标签中获取值,可以使用方法,该方法可用于获取任何配置选项的

  • 问题内容: 我有以下html: 我要删除从开始到结束为止的所有内容。我怎么做? 问题答案: 使用本机DOM

  • 问题内容: 当我使用jsoup提取数据时遇到一个职位。数据如下: 我想要这样的数据: 我怎样才能做到这一点?谁能帮我? 问题答案: 您可以将html解析为,选择-Element并获取其文本。 例: 输出:

  • 问题内容: 我正在尝试在特定标签内获取文本。所以,如果我有: 我希望能够检索文本。 我正在尝试使用正则表达式。如果保持不变,我可以做到,但事实并非如此。 到目前为止,我有这个: 我认为最后两个部分-可以-但我不知道第一部分要做什么。 问题答案: 正如他们所说的,不要使用正则表达式来解析HTML。如果您知道这些缺点,则可以摆脱它。尝试 将遍历字符串中的所有匹配项。 它不会处理嵌套标签,并且会忽略标签

  • 该如何用bs4解析它以获得仅有的国家值? 通过这段代码,我从td获得了所有文本,但我不明白如何具体引用国家 我有这根绳子