当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Beanbun

可扩展的爬虫框架

授权协议 MIT

开发语言 PHP

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者仲孙英才

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

简介

Beanbun 是一个简单可扩展的爬虫框架，支持分布式，支持守护进程模式与普通模式，守护进程模式基于 Workerman，下载器基于 Guzzle。

特点

支持守护进程与普通两种模式（守护进程模式只支持 Linux 服务器）
默认使用 guzzle 进行爬取
支持分布式
支持内存、Redis 等多种队列方式
支持自定义URI过滤
支持广度优先和深度优先两种爬取方式
遵循 PSR-4 标准
爬取网页分为多步，每步均支持自定义动作（如添加代理、修改 user-agent 等）
灵活的扩展机制，可方便的为框架制作插件：自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php，包含以下内容

<?php
use Beanbun\Beanbun;
$beanbun = new Beanbun;
$beanbun->seed = [
	'http://www.950d.com/',
	'http://www.950d.com/list-1.html',
	'http://www.950d.com/list-2.html',
];
$beanbun->afterDownloadPage = function($beanbun) {
	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser

更多详细内容，请查看文档

使用案例

Beanbun: 简单开放的 PHP 爬虫框架

Beanbun Beanbun 是用 PHP 编写的多进程网络爬虫框架，具有良好的开放性、高可扩展性。项目地址：https://github.com/kiddyuchin... 文档地址：http://beanbun.org 由来我希望有这样一个爬虫框架：在简单需求的情况下，可以用最少的代码快速建立一个功能完善的爬虫；而且如果你愿意，你可以对爬虫进行你想要的任何修改。它要天然支持分布式，支持多
thinkphp5 + beanbun 爬取电影网址、图片（简单）

先创建两个数据表分别存储第一级url表和这个url下面的图片表 dy2018网站网址：传送门数据表 think_dy2018表 CREATE TABLE `think_dy2018` ( `id` int(7) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键id', `movieName` varchar(255) NOT NULL COMMEN

相关资料

Python Scrapy爬虫框架

主要内容：Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它
15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
WebMagic 爬虫框架中文文档

WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。这本小书以WebMagic入手，一方面讲解WebMagic的使用方式，另一方面讲解爬虫开发的一些惯用方案。
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR
扩展Web框架

第十三章介绍了如何开发一个Web框架，通过介绍MVC、路由、日志处理、配置处理完成了一个基本的框架系统，但是一个好的框架需要一些方便的辅助工具来快速的开发Web，那么我们这一章将就如何提供一些快速开发Web的工具进行介绍，第一小节介绍如何处理静态文件，如何利用现有的twitter开源的bootstrap进行快速的开发美观的站点，第二小节介绍如何利用前面介绍的session来进行用户登录处理，第三小

Beanbun

简介

特点

安装

快速开始

插件

同类工具

相关阅读

相关文章

相关问答

相关文档