当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

PHP-spider

授权协议 GPL

开发语言 PHP

所属分类应用工具、网络爬虫

软件类型开源软件

地区不详

投递者夔建章

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

一个可扩展的PHP WEB 蜘蛛，示例代码：

use VDB\Spider\Spider;
use VDB\Spider\Discoverer\XPathExpressionDiscoverer;

$spider = new Spider('http://www.oschina.net');

特性：

supports two traversal algorithms: breadth-first and depth-first
supports depth limiting and queue size limiting
supports adding custom URI discovery logic, based on XPath, CSS selectors, or plain old PHP
comes with a useful set of URI filters, such as Domain limiting
supports custom URI filters, both prefetch (URI) and postfetch (Resource content)
supports custom request handling logic
comes with a useful set of persistence handlers (memory, file. Redis soon to follow)
supports custom persistence handlers
collects statistics about the crawl for reporting
dispatches useful events, allowing developers to add even more custom behavior
supports a politeness policy
will soon come with many default discoverers: RSS, Atom, RDF, etc.
will soon support multiple queueing mechanisms (file, memcache, redis)
will eventually support distributed spidering with a central queue

使用案例

phpspider 简单用法和学习，分类一对多爬取数据

最近上面让爬一些数据，以为可以尝试学习使用python，奈何最终让我用PHP实现，减少开发时间…然后在网上找，果然已经有大佬分享----phpspider，还有一些php爬虫框架，但是考虑到是国人开发，代码可读性高（全中文注释，注释清晰，详细），并且在github上有近3K的star，最终决定使用phpspider。作者很有意思，代码注释风趣，并且各种情况都做了兼容，只需要轻轻配置一下，不需要我
PHP-spider

supports two traversal algorithms: breadth-first and depth-first supports depth limiting and queue size limiting supports adding custom URI discovery logic, based on XPath, CSS selectors, or plain old
前端中文字体压缩 font-spider

中文字体和英文字体相比要大很多，英文说白了就26个字母，而汉字就没有那么幸运了，所以一般前端中文字体文件都比较大，如果站点带宽ia不够的话，加载会比较缓慢，所以我们要想办法压缩下字体大小，无非就是只在字体文件中包含我们需要的汉字。字蛛(FontSpider)通过分析本地 CSS 与 HTML 文件获取 WebFont 中没有使用的字符，并将这些字符数据从字体中删除以实现压缩，同时生成跨浏览器使用
php - Spider抓取动态内容（JavaScript指向的页面）

PHP新手，在写爬虫练手，一般情况下跟踪链接不是很难，但是如果是动态页面就束手无策了。也许分析协议(但是怎么分析？)，模拟执行JavaScript脚本(怎么弄？)，…… 另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题，没有听说或相关开源项目。下面是问题描述：比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分)： javascript
宝塔中font-spider定时执行

首先安装好font-spider后压缩网站字体，但是一旦网站更新内容字体就不会自动压缩了于是在宝塔的计划任务shell脚本中 font-spider /demo/*.html 中间的demo换成网站名称但是发现运行的时候出现 sh font-spider commount not found 直接运行就可以，但是用shell就不行，究竟为啥？于是百度了半天 /www/server/nvm/v
Scrapy框架-Spider和CrawlSpider的区别

1.目标爬取每个页面链接的内部内容和投诉信息 2.方法1：通过spider爬取 # -*- coding: utf-8 -*- import scrapy from dongguanspider.items import dongguanitem class sunspider(scrapy.spider): name = 'sun' allowed_domains = ['wz.sun0769
Python Scrapy框架学习---入门-Spider-Tencent案例(五）

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写的爬虫必须继承这个类。主要用到的函数及调用顺序为： __init__() : 初始化爬虫名字和start_url
python-spider

#!/usr/bin/env python #coding: utf-8 import urllib import urllib2 import cookielib import getpass def login(): loginname = raw_input("Enter your username: ") password = getpass.getpass("Ent
zhihu-spider开源项目的README.md

###zhihu-spider开源项目的README.md 1.项目背景从一开始是想编写一个单纯的知乎爬虫，并实现其持久化，并由此展开周期性爬取知乎问题及答案以及其用户资料信息，完善前后端分离归档分类，信息检索等项目模块。但是在实现过程中，我逐渐发现自己对信息爬取的技能知识掌握严重不足，萌发了搭建知乎信息中转持久化的数据流平台，并提供HTML+JSON和RabbitMQ等消息接口，从而使有兴趣的

PHP-spider

同类工具

相关阅读

相关文章

相关问答

相关文档