当前位置：首页 > 编程笔记 >

python爬虫常用的模块分析

田远

2023-03-14

本文向大家介绍python爬虫常用的模块分析，包括了python爬虫常用的模块分析的使用技巧和注意事项，需要的朋友参考一下

本文对Python爬虫常用的模块做了较为深入的分析，并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下：

creepy模块

某台湾大神开发的，功能简单，能够自动抓取某个网站的所有内容，当然你也可以设定哪些url需要抓。

地址：https://pypi.python.org/pypi/creepy

功能接口：

set_content_type_filter:
设定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：
过滤url，传入的可以是正则表达式

set_follow_mode：
设定递归模式，F_ANY：该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH：同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg，则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level：
设定线程最大数

process_document：
一般需要重写，处理网页内容，提取自己需要的内容。

selenium
可视化界面，抓取自动化，api使用超简单，完全像是自己在操作浏览器。

官方网站：http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api（很好用，建议多了解一下）
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

类似资料：

Python爬虫：常用的爬虫技巧总结

python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。
Python 爬虫之Beautiful Soup模块使用指南

本文向大家介绍Python 爬虫之Beautiful Soup模块使用指南，包括了Python 爬虫之Beautiful Soup模块使用指南的使用技巧和注意事项，需要的朋友参考一下爬取网页的流程一般如下：选着要爬的网址（url）使用 python 登录上这个网址（urlopen、requests 等）读取网页信息（read() 出来）将读取的信息放入 BeautifulSoup 使用
python爬虫 urllib模块url编码处理详解

本文向大家介绍python爬虫 urllib模块url编码处理详解，包括了python爬虫 urllib模块url编码处理详解的使用技巧和注意事项，需要的朋友参考一下案例：爬取使用搜狗根据指定词条搜索到的页面数据（例如爬取词条为‘周杰伦'的页面数据）编码错误【注意】上述代码中url存在非ascii编码的数据，则该url无效。如果对其发起请求，则会报如下错误： url的特性：url不可以存在非
使用Python的urllib和urllib2模块制作爬虫的实例教程

本文向大家介绍使用Python的urllib和urllib2模块制作爬虫的实例教程，包括了使用Python的urllib和urllib2模块制作爬虫的实例教程的使用技巧和注意事项，需要的朋友参考一下 urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看.整篇笔记主要分以下
python爬虫基于requests模块的get请求实现详解

本文向大家介绍python爬虫基于requests模块的get请求实现详解，包括了python爬虫基于requests模块的get请求实现详解的使用技巧和注意事项，需要的朋友参考一下需求：爬取搜狗首页的页面数据 requests模块如何处理携带参数的get请求，返回携带参数的请求需求:指定一个词条，获取搜狗搜索结果所对应的页面数据之前urllib模块处理url上参数有中文的需要处理编码，
Python并发爬虫常用实现方法解析

本文向大家介绍Python并发爬虫常用实现方法解析，包括了Python并发爬虫常用实现方法解析的使用技巧和注意事项，需要的朋友参考一下在进行单个爬虫抓取的时候，我们不可能按照一次抓取一个url的方式进行网页抓取，这样效率低，也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种：进程，线程，协程。进程不在的讨论范围之内，一般来说，进程是用来开启多个spider，比如我们开

相关阅读

Python并发爬虫常用实现方法解析 python爬虫模拟浏览器的两种方法实例分析 python爬虫入门教程之糗百图片爬虫代码分享 Python反爬虫伪装浏览器进行爬虫关于爬虫和反爬虫的简略方案分享

相关文章

Python re模块用法 Python traceback模块：获取异常信息 [实例]爬虫下载小说 [实例]爬虫抓取网页 Python fnmatch模块

相关问答

小程序的爬虫能爬动态数据吗?python3.x - python mitmproxy高级爬虫问题,求解决?使用python模块的hadoop流如何使用 LLM 来做爬虫的页面通用解析？爬虫python ，为什么偶尔出现list out of range ，爬不出数据的情况？

相关工具

百度云分享爬虫神箭手云爬虫模拟虫群 UIAlerVIew 管理模块 iOS常见物理仿真模拟

相关文档

Python 原生爬虫教程爬虫课件 Python 爬虫学习系列教程 WebMagic 爬虫框架中文文档宇润爬虫框架 Yurun Crawler 帮助文档