当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

XCrawler

轻量级的 PHP 爬虫框架

授权协议 Apache

开发语言 PHP

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者端木渝

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

XCrawler - 轻量级、易维护的PHP爬虫框架

特性:

极易上手，具备完善的文档和示例
支持多并发爬取
支持基于 xpath、css 选择器解析内容
模拟浏览器行为，如 user-agent、cookie、提交表单
支持断点续爬、失败重试、代理、并有完善的爬取日志
健壮的底层库，HTTP 客户端基于 guzzle，dom 解析基于 symfony/dom-crawler 库

查看文档：https://xcrawler.yanshuju.com/docs/

相关资料

Python Scrapy爬虫框架

主要内容：Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它
15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
Java中的轻量级发布/订阅框架

问题内容：是否有一个提供发布/订阅模式的Java轻量级框架？一些理想的功能支持泛型向发布者注册多个订阅者 API主要是接口和一些有用的实现完全不需要内存，持久性和事务保证。我了解JMS，但这对我来说太过分了。发布/订阅的数据是文件系统扫描的结果，扫描结果被馈送到另一个组件进行处理，然后在将其馈给另一个组件之前进行处理，依此类推。编辑：所有在同一过程中。bean的PropertyCha
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
轻量级javascript 框架Backbone使用指南

本文向大家介绍轻量级javascript 框架Backbone使用指南，包括了轻量级javascript 框架Backbone使用指南的使用技巧和注意事项，需要的朋友参考一下 Backbone 是一款基于模型-视图-控制器 MVC 模式的轻量级javascript 框架，可以用来帮助开发人员创建单页Web应用。借助Backbone 我们可以使用REST的方式来最小化客户端和服务器间的数据传输，
前端轻量级MVC框架CanJS详解

本文向大家介绍前端轻量级MVC框架CanJS详解，包括了前端轻量级MVC框架CanJS详解的使用技巧和注意事项，需要的朋友参考一下选择正确的库创建一个JS APP没有好的工具是很有难度的，jQuery只是操作DOM的库，没有提供任何创建APP的基础，这就是为什么我们要一个类似CanJS的专门的库。 CanJS 是一个轻量级的MVC库，提供你创建一个JS APP所需的工具。 CanJS 是一个轻
WebMagic 爬虫框架中文文档

WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。这本小书以WebMagic入手，一方面讲解WebMagic的使用方式，另一方面讲解爬虫开发的一些惯用方案。
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR

XCrawler

XCrawler - 轻量级、易维护的PHP爬虫框架

同类工具

相关阅读

相关文章

相关问答

相关文档