当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

PHP-spider

授权协议 GPL
开发语言 PHP
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 不详
投 递 者 夔建章
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

一个可扩展的PHP WEB 蜘蛛,示例代码:

use VDB\Spider\Spider;
use VDB\Spider\Discoverer\XPathExpressionDiscoverer;

$spider = new Spider('http://www.oschina.net');

特性:

  • supports two traversal algorithms: breadth-first and depth-first

  • supports depth limiting and queue size limiting

  • supports adding custom URI discovery logic, based on XPath, CSS selectors, or plain old PHP

  • comes with a useful set of URI filters, such as Domain limiting

  • supports custom URI filters, both prefetch (URI) and postfetch (Resource content)

  • supports custom request handling logic

  • comes with a useful set of persistence handlers (memory, file. Redis soon to follow)

  • supports custom persistence handlers

  • collects statistics about the crawl for reporting

  • dispatches useful events, allowing developers to add even more custom behavior

  • supports a politeness policy

  • will soon come with many default discoverers: RSS, Atom, RDF, etc.

  • will soon support multiple queueing mechanisms (file, memcache, redis)

  • will eventually support distributed spidering with a central queue

  • 最近上面让爬一些数据,以为可以尝试学习使用python,奈何最终让我用PHP实现,减少开发时间…然后在网上找,果然已经有大佬分享----phpspider,还有一些php爬虫框架,但是考虑到是国人开发,代码可读性高(全中文注释,注释清晰,详细),并且在github上有近3K的star,最终决定使用phpspider。 作者很有意思,代码注释风趣,并且各种情况都做了兼容,只需要轻轻配置一下,不需要我

  • supports two traversal algorithms: breadth-first and depth-first supports depth limiting and queue size limiting supports adding custom URI discovery logic, based on XPath, CSS selectors, or plain old

  • 中文字体和英文字体相比要大很多,英文说白了就26个字母,而汉字就没有那么幸运了,所以一般前端中文字体文件都比较大,如果站点带宽ia不够的话,加载会比较缓慢,所以我们要想办法压缩下字体大小,无非就是只在字体文件中包含我们需要的汉字。 字蛛(FontSpider)通过分析本地 CSS 与 HTML 文件获取 WebFont 中没有使用的字符,并将这些字符数据从字体中删除以实现压缩,同时生成跨浏览器使用

  • PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。 也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),…… 另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题,没有听说或相关开源项目。 下面是问题描述: 比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分): javascript

  • 首先安装好font-spider后压缩网站字体,但是一旦网站更新内容字体就不会自动压缩了 于是在宝塔的计划任务shell脚本中 font-spider /demo/*.html 中间的demo换成网站名称 但是发现运行的时候出现 sh font-spider commount not found 直接运行就可以,但是用shell就不行,究竟为啥? 于是百度了半天 /www/server/nvm/v

  • 1.目标 爬取每个页面链接的内部内容和投诉信息 2.方法1:通过spider爬取 # -*- coding: utf-8 -*- import scrapy from dongguanspider.items import dongguanitem class sunspider(scrapy.spider): name = 'sun' allowed_domains = ['wz.sun0769

  • Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类。 主要用到的函数及调用顺序为: __init__() : 初始化爬虫名字和start_url

  • #!/usr/bin/env python #coding: utf-8 import urllib import urllib2 import cookielib import getpass def login(): loginname = raw_input("Enter your username: ") password = getpass.getpass("Ent

  • ###zhihu-spider开源项目的README.md 1.项目背景 从一开始是想编写一个单纯的知乎爬虫,并实现其持久化,并由此展开周期性爬取知乎问题及答案以及其用户资料信息,完善前后端分离归档分类,信息检索等项目模块。但是在实现过程中,我逐渐发现自己对信息爬取的技能知识掌握严重不足,萌发了搭建知乎信息中转持久化的数据流平台,并提供HTML+JSON和RabbitMQ等消息接口,从而使有兴趣的

 相关资料
  • 问题内容: 我被指示使用该方法,而不是与JQuery的Ajax请求进行交互时使用。我不了解使用vs 或全局方法的好处。 问题答案: 原因是无论内容类型如何,都将在请求的HTTP标头之后返回所有原始数据。 PHP superglobal 仅 应 包装以下任一数据 (用于简单表单发布的标准内容类型)或 (主要用于文件上传) 这是因为这些是用户代理 必须 支持的唯一内容类型。因此,服务器和PHP传统上不

  • PHP

    因此,我有一个带有注释功能的站点,其中注释的时间戳存储在MySQL数据库中。据我所知,时间戳在存储时转换为UTC,然后在检索时转换回默认时区。在我的例子中,我的服务器位于中央夏令时时区(CDT)。 我计划通过输入表单从每个用户那里获取时区。我只是想知道如何将时间戳值转换成用户的时区。 首先,我会将UTC转换为本地时区吗?或CDT到本地时区? 其次,我将如何在PHP中实现这一点?我只想: ...还是

  • php

    php tags allow php to be embedded directly into the template. They will not be escaped, regardless of the $php_handling setting. This is for advanced users only, not normally needed. php 标签允许在模板中直接嵌入

  • PHP

    PHP 网站应用如果是用 PHP 语言编写的,对 PHP 文件的请求需要用到 PHP 的解释器,它跟 Web 服务器之间需要用到 PHP-FPM。Web 服务器会把请求转发给 PHP-FPM,PHP-FPM 会使用 PHP 解释器处理请求,把结果再交给 Web 服务器。 搜索: yum search php 要安装的 PHP 的版本有很多选择,你得根据要运行的网站的需求,去安装网站应用推荐使用的

  • php

    请参考:http://www.kancloud.cn/manual/thinkphp/1819

  • PHP

    PHP(Hypertext Preprocessor)即“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法利用了C、Java和Perl,该语言的主要目标是允许web开发人员快速编写动态网页 目录结构CentOS /etc/php.ini: 配置文件,用来配置文件上传大小、内存、执行时间等 /etc/php-fpm.conf: PHP-FPM 配置文件