当前位置：首页 > 编程笔记 >

Python使用requests及BeautifulSoup构建爬虫实例代码

毋炳

2023-03-14

本文向大家介绍Python使用requests及BeautifulSoup构建爬虫实例代码，包括了Python使用requests及BeautifulSoup构建爬虫实例代码的使用技巧和注意事项，需要的朋友参考一下

本文研究的主要是Python使用requests及BeautifulSoup构建一个网络爬虫，具体步骤如下。

功能说明

在Python下面可使用requests模块请求某个url获取响应的html文件，接着使用BeautifulSoup解析某个html。

案例

假设我要http://maoyan.com/board/4猫眼电影的top100电影的相关信息，如下截图：

获取电影的标题及url。

安装requests和BeautifulSoup

使用pip工具安装这两个工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_one_page(url):
  response= requests.get(url)
  if response.status_code == 200:
    return response.content.decode("utf8","ignore").encode("gbk","ignore")
#采用BeautifulSoup解析
def bs4_paraser(html):
  all_value = []
  value = {}
  soup = BeautifulSoup(html,'html.parser')
  # 获取每一个电影
  all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})
  for r in all_div_item:
    # 获取电影的名称和url
    title = r.find_all(name="p",attrs={"class":"name"})[0].string
    movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']
    value['title'] = title
    value['movie_url'] = movie_url
    all_value.append(value)
    value = {}
  return all_value

def main():
  url = 'http://maoyan.com/board/4'
  html = get_one_page(url)
  all_value = bs4_paraser(html)
  print(all_value)

if __name__ == '__main__':
  main()

代码测试可用，实现效果：

总结

以上就是本文关于Python使用requests及BeautifulSoup构建爬虫实例代码的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

类似资料：

Python基于BeautifulSoup和requests实现的爬虫功能示例

本文向大家介绍Python基于BeautifulSoup和requests实现的爬虫功能示例，包括了Python基于BeautifulSoup和requests实现的爬虫功能示例的使用技巧和注意事项，需要的朋友参考一下本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考，具体如下：爬取的目标网页：http://www.qianlima.
使用requests库制作Python爬虫

本文向大家介绍使用requests库制作Python爬虫，包括了使用requests库制作Python爬虫的使用技巧和注意事项，需要的朋友参考一下使用python爬虫其实就是方便，它会有各种工具类供你来使用，很方便。Java不可以吗？也可以，使用httpclient工具、还有一个大神写的webmagic框架，这些都可以实现爬虫，只不过python集成工具库，使用几行爬取，而Java需要写更多的行
python scrapy爬虫代码及填坑

本文向大家介绍python scrapy爬虫代码及填坑，包括了python scrapy爬虫代码及填坑的使用技巧和注意事项，需要的朋友参考一下涉及到详情页爬取目录结构: kaoshi_bqg.py xmly.py item.py pipelines.py starts.py 然后是爬取到的数据小说 xmly.json 记录一下爬取过程中遇到的一点点问题: 在爬取详情页的的时候, 刚开始不知道
Python爬虫之UserAgent的使用实例

本文向大家介绍Python爬虫之UserAgent的使用实例，包括了Python爬虫之UserAgent的使用实例的使用技巧和注意事项，需要的朋友参考一下问题: 在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用, 最近看到一个Python库(fake-useragent),可以随机生成各种UserAgent, 在这里记录一下, 留给自己爬虫使用。
python爬虫---requests库的用法详解

本文向大家介绍python爬虫---requests库的用法详解，包括了python爬虫---requests库的用法详解的使用技巧和注意事项，需要的朋友参考一下 requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多因为是第三方库，所以使用前需要cmd安装 pip install requests 安装完成后import一下，正常则说明可以开始使用了。基本用
python+selenium+chromedriver实现爬虫示例代码

本文向大家介绍python+selenium+chromedriver实现爬虫示例代码，包括了python+selenium+chromedriver实现爬虫示例代码的使用技巧和注意事项，需要的朋友参考一下下载好所需程序 1.Selenium简介 Selenium是一个用于Web应用程序测试的工具，直接运行在浏览器中，就像真正的用户在操作一样。 2.Selenium安装方法一：在Windows

相关阅读

python爬虫---requests库的用法详解 python+selenium+chromedriver实现爬虫示例代码 python爬虫beautifulsoup库使用操作教程全解(python爬虫基础入门)Python实现的异步代理爬虫及代理池 PHP实现爬虫爬取图片代码实例

相关文章

第一个Python爬虫程序实战-Swing实现简单爬虫 Python爬虫实战：王者荣耀全套皮肤采集 Python Requests库网络爬虫是什么

相关问答

如何构建生产代码以及如何使用它使用基于python scrapy的爬虫程序，但出现错误 python - 爬虫代理反向代理管理面板有哪些技术选型？python3.x - python mitmproxy高级爬虫问题,求解决?如何从源代码构建Python 3.4.6？

相关工具

神箭手云爬虫百度云分享爬虫 Requests BeautifulSoup Requests-Go

相关文档

Python 原生爬虫教程爬虫课件 Python 爬虫学习系列教程 WebMagic 爬虫框架中文文档宇润爬虫框架 Yurun Crawler 帮助文档