当前位置: 首页 > 编程笔记 >

python中bs4.BeautifulSoup的基本用法

龙德润
2023-03-14
本文向大家介绍python中bs4.BeautifulSoup的基本用法,包括了python中bs4.BeautifulSoup的基本用法的使用技巧和注意事项,需要的朋友参考一下

导入模块

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_doc,"html.parser")

下面看下常见的用法

print(soup.a)
  # 拿到soup中的第一个a标签
 
 
 
  print(soup.a.name)
  # 获取a标签的名称
 
 
  print(soup.a.string)
  # 获取a标签的文本内容
 
 
  print(soup.a.text)
  # 获取a标签的文本内容
 
 
  print(soup.a["href"])
  # 获取a标签的href属性的值
 
  print(soup.a.get("href"))
  # 查找第一个a标签的href的属性
 
  print(soup.a.attrs)
  # 获取a标签的所有的属性,返回一个字典
 
 
 
  print(soup.find("a"))
  # 查找第一个a标签
 
 
  print(soup.find_all("a"))
  # 查找所有的a标签
 
 
  print(soup.find_all(id="a1"))
  # 查找所有的的id为a1的标签
 
 
  print(soup.find_all(class_="sistex"))
  # 这里需要注意,如果需要通过class去查找,则需要一个下划线
 
 
  print(soup.find_all(["a","p","br"]))
  # 查找所有的啊标签,p标签和br标签
 
 
  soup.find("a").attrs["class"] = "2b"
  # 修改某个标签的属性值
 
  del soup.find(id="a1").attrs["class"]
  # 删除某个标签的class属性
import re
 
soup.find(re.compile("b"))
# 标签中有b这个字符的标签
 
 
soup.select("a.syster")
# 这个可以放标签选择器
 
soup.select(".syster .abcd")
# 这个可以放标签选择器
 
 
soup.find("a").decompose()
# 从当前字符串中删除第一个a标签,是在原位置进行删除

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持小牛知识库。

 类似资料:
  • 问题内容: 我正在使用Python并使用Flask。当我在计算机上运行主Python文件时,它可以正常运行,但是当我激活venv并在终端中运行Flask Python文件时,它表示我的主Python文件具有“没有名为bs4的模块”。任何意见或建议,不胜感激。 问题答案: 激活virtualenv,然后安装BeautifulSoup4: 使用进行安装时,你在系统范围内进行了安装。因此,你的系统pyt

  • 问题内容: 使用BeautifulSoup bs4时,如何从HTML标签内部获取文本?当我运行此行时: 我得到这样的标签: 现在我只想获取其中的内部文本,不带标签。怎么做? 问题答案: 使用.text从标记中获取文本。 要不就 要打开文件并使用文本作为名称,请像使用其他任何字符串一样简单地使用它:

  • 主要内容:BS4下载安装,BS4解析对象,BS4常用语法,遍历节点,find_all()与find(),CSS选择器Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解 BS4 的基本语法。 图1:BS4官网LOGO图 BS4下载安装 由于 Bautiful Soup 是第三方库,因此需

  • 问题内容: 我正在使用beautifulSoup从网站提取数据。每当您重新加载页面时,该网站上的文本都会更改,因此基本上,我希望能够将重点放在类名上作为静态变量,因为文本是动态的。 它打印出 当页面重新加载,我仍然有重点的领域,但我不知道如何只打印文本(在这种情况下是:4) 一旦解决了这个问题,我还有另一个问题:如果该类包含多个标签,是否有办法获取更多静态数据,以确保它只打印我在搜索的文本,而不是

  • 本文向大家介绍Python在BeautifulSoup中的元素后找到文本,包括了Python在BeautifulSoup中的元素后找到文本的使用技巧和注意事项,需要的朋友参考一下 示例 假设您有以下HTML: 并且您需要在label元素之后找到文本“ John Smith” 。 在这种情况下,您可以label按文本查找元素,然后使用.next_sibling属性: 印刷品John Smith。

  • 本文向大家介绍python中update的基本使用方法详解,包括了python中update的基本使用方法详解的使用技巧和注意事项,需要的朋友参考一下 前言 Python 字典 update()方法用于更新字典中的键/值对,可以修改存在的键对应的值,也可以添加新的键/值对到字典中。 语法格式 参数说明 将e中键-值对添加到字典d中,e可能是字典,也可能是键-值对序列。详见实例。 返回值 该方法没有