当前位置: 首页 > 知识库问答 >
问题:

蟒蛇美丽汤在div标签本身中提取数据

雍志新
2023-03-14

我正在尝试使用Pythons beautifulSoup从HTML文件中提取数据。下面一行HTML是我感兴趣的。

<div class="myself" title="Name@email.com [11:07:27 AM]">
     <nobr>Name</nobr></div>

我想提取标题(与电子邮件和时间戳)。我可以使用访问该类...

find('div', attrs={'class':'myself'}))

我可以从那里打印<code>div</code>的全部内容或div中的标记中的信息,但我不知道如何获取<code>title</code>,因为它位于同一个<code〕div</code>标记中

共有2个答案

贝滨海
2023-03-14

用可能这个方法

>>>import bs4
>>>html_string = "<div class="myself" title="Name@email.com [11:07:27 AM]">
 <nobr>Name</nobr></div>"
>>>title_string = bs4.BeautifulSoup(html_string).div.attrs['title']
>>>print(title_string)
'Name@email.com [11:07:27 AM]'
甄越
2023-03-14

可以以类似字典的方式检索属性:

一个标签可以有任意数量的属性。您可以通过将标签视为字典来访问标签的属性。

from bs4 import BeautifulSoup

soup = BeautifulSoup(data)
div = soup.find("div", class_="myself", title=True)
print(div["title"])
 类似资料:
  • 我试图使用美丽的汤抓取newegg的产品名称、描述、价格和图像。我有以下bs4.element.标签类型,我想从标签中提取“src”链接。以下是我的标签: 我怎样才能提取 从这个标签?我试过了 但我收到了Keyerror。

  • 我希望从< code>div内的标题和< code >内的文本中提取文本字符串 我可以用<code>汤得到标题。h1</code>,但我想获得特定于div<code>中的<code>h1</code> 超文本标记语言:

  • 问题内容: 我正在尝试从Google搜索结果中提取链接。检查元素告诉我,我感兴趣的部分具有“ class = r”。第一个结果如下所示: 要提取“ href”,我要做: 但是我意外地得到: 我想要的地方: 属性“ ping”似乎使它感到困惑。有任何想法吗? 问题答案: 发生了什么? 如果您打印响应内容(即),则会看到您得到的HTML完全不同。页面源和响应内容不匹配。 因为内容是动态加载的,所以 不

  • 我正在尝试使用漂亮的汤解析网页(这是我有生以来第一次),我遇到了一个奇怪的错误。html结构中的标记中有一个标记,我一直收到错误 html标签的结构如下:页面上项目的整个网格都在div类"properties_reviews"中,然后进入div类"preview"中,用于特定项目,该类"preview"还有两个类:照片的"preview-media"和我需要解析的文本信息的"preview-con

  • 问题内容: 我有一个像 我可以得到标题标签 但是我怎样才能在b标签之后得到文本呢?我想通过引用该元素而不是body元素来获取包含“ Title:”的元素之后的文本。 问题答案: 参考的文档,你可能想使用你的: 在这种情况下,“同级”是下一个节点,而不是下一个元素/标签。元素的下一个节点是文本节点,因此您可以获得所需的文本。

  • 问题内容: 为什么这不返回标签和中间的东西?它什么也不返回。我知道一个事实,因为我正盯着它 也行不通。 ( 编辑: 我发现BeautifulSoup无法正确解析我的页面,这可能意味着我尝试解析的页面在SGML或其他格式中未正确格式化) 问题答案: 您应该发布示例文档,因为代码可以正常工作: 在s内部查找s也可以: