当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

INFO-SPIDER

爬虫工具箱

授权协议 GPL

开发语言 Python HTML/CSS

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者佟阳云

操作系统跨平台

开源组织无

适用人群未知

软件概览

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱，旨在安全快捷的帮助用户拿回自己的数据，工具代码开源，流程透明。并提供数据分析功能，基于用户数据生成图表文件，使得用户更直观、深入了解自己的信息。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

Features

安全可靠：本项目为开源项目，代码简洁，所有源码可见，本地运行，安全可靠。
使用简单：提供 GUI 界面，只需点击所需获取的数据源并根据提示操作即可。
结构清晰：本项目的所有数据源相互独立，可移植性高，所有爬虫脚本在项目的 Spiders 文件下。
数据源丰富：本项目目前支持多达24+个数据源，持续更新。
数据格式统一：爬取的所有数据都将存储为json格式。
个人数据丰富：本项目将尽可能多地为你爬取个人数据，后期数据处理可根据需要删减。
数据分析：本项目提供个人数据的可视化分析，目前仅部分支持。
文档丰富：本项目包含完整全面的使用说明文档和视频教程

使用案例

如何正确使用scrapy-Spider中间件？

我有一个正在工作的scrapy项目，我现在想在其中添加一些自定义中间件。在我在settings.py中启用了Spider中间件，方法是取消注释下面的三行。在# Enable or disable spider middlewares # See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html SPIDER
scrapy原码解读---Spider

一、spider的作用和功能根据url生成Request并指定回调方法处理Response。第一个Request是通过start_requests()产生的；在回调方法中，解析页面的Response，返回Item实例或者Request实例，或者这两种实例的可迭代对象；在回调方法中，通常使用Selectors（也可以使用BeautifulSoup，lxml等）来提取数据；最后spider会r
Python3.7网络爬虫学习----Spider运行错误问题解决 [write(self,data,async=False): SyntaxError]

本文转载自：https://blog.csdn.net/vivi_in_purple/article/details/81840268 在好不容易安装完Scrapy后尝试写一个简单的ScrapyProject，按书上的代码写完检查了很多遍保证没有错，可是在运行这个Spider的时候却出现里这个神奇的问题： 2018-08-19 18:20:15 [scrapy.utils.log] INFO:
从头学习爬虫（十七）重构篇----WebMagic框架分析之spider

这系列文章主要分析分析webmagic框架，没有实战内容，如有实战问题可以讨论，也可以提供技术支持。欢迎加群313557283（刚创建），小白互相学习~ Spider package us.codecraft.webmagic; import org.apache.commons.collections.CollectionUtils; import org.apache.commons.la
Scrapy笔记（3）- Spider详解

Spider是爬虫框架的核心，爬取流程如下：先初始化请求URL列表，并指定下载后处理response的回调函数。初次请求URL通过start_urls指定，调用start_requests()产生Request对象，然后注册parse方法作为回调在parse回调中解析response并返回字典,Item对象,Request对象或它们的迭代对象。Request对象还会包含回调函数，之后Scrap

INFO-SPIDER

Features

同类工具

相关阅读

相关文章

相关问答

相关文档