当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

Creeper

Go 版本开源爬虫框架

授权协议 Apache

开发语言 Google Go

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者刘畅

操作系统跨平台

开源组织无

适用人群未知

软件概览

Creeper 是一个基于简单脚本（ Creeper Script ，扩展名 .crs ）的下一代开源爬虫框架。

需要配合一门正经的编程语言（只开发了 Go 版本）来使用，先在 Creeper Script 内定义爬取规则，然后用 Go 代码来读取规则，再爬取资源。

使用场景一般会用在需要同时采集大量不同网站，或者开发聚合阅读器时。（以后可能会增加 cli 和数据库访问支持）

简单的用例：

假如我想要爬取 HackerNews ，需要写出这样子的脚本，其实看起来有些类似 yaml 配合 jquery 的样子，但是其实差别挺大的。

page(@page=1) = "https://news.ycombinator.com/news?p={@page}"

news[]: page -> $("tr.athing")
    title: $(".title a.storylink").text
    site: $(".title span.sitestr").text
    link: $(".title a.storylink").href

之后在 Go 文件中来读取并使用这个脚本；

package main

import "github.com/wspl/creeper"

func main() {
    c := creeper.Open("./hacker_news.crs")
    c.Array("news").Each(func(c *creeper.Creeper) {
        println("title: ", c.String("title"))
        println("site: ", c.String("site"))
        println("link: ", c.String("link"))
        println("===")
    })
}

执行后，将会如期地输出类似下面的内容：

title:  Samsung chief Lee arrested as S.Korean corruption probe deepens
site:  reuters.com
link:  http://www.reuters.com/article/us-southkorea-politics-samsung-group-idUSKBN15V2RD
===
title:  ReactOS 0.4.4 Released
site:  reactos.org
link:  https://reactos.org/project-news/reactos-044-released
===
title:  FeFETs: How this new memory stacks up against existing non-volatile memory
site:  semiengineering.com
link:  http://semiengineering.com/what-are-fefets/

使用案例

北航OJ题目：ID8（creeper学妹的计算题）

题目描述 creeper学妹有一天拿来一个表达式a/bc+d/e/fg*h，然后在纸上一堆数字让Lawliet做，每一组不超过1秒。Lawliet表示瞬间被秒杀了- -#所以推倒creeper学妹的任务只能交给大家来完成了。输入多组数据，第一行一个数T，表示有T组数据。(1 输出每组数据输出一行，为最终计算结果。样例输入 1 6 2 3 9 3 1 6 2 样例输出 45 Hint 此题禁

相关资料

Python Scrapy爬虫框架

主要内容：Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台，比如 Linux、Mac、Windows 等，因此你可以很方便的安装它
15 爬虫与反爬虫

有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。因此，有些网站会设置一些反爬虫的措施。我
爬虫

这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接，以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析，并且可以在解析的同时创建一个新的请求，你还可以直接调用spider模块来实现，这样就不需要自己去写
WebMagic 爬虫框架中文文档

WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。这本小书以WebMagic入手，一方面讲解WebMagic的使用方式，另一方面讲解爬虫开发的一些惯用方案。
通用爬虫和聚焦爬虫

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫就是捜索引擎抓取系统，目的是将互联网上的所有的网页下载到本地，形成一个互联网内容的镜像备份。它决定着整个搜索引擎内容的丰富性和时效性，因此它的性能优劣直接影响着搜索引擎的效果。通用搜索引擎（Search Engine）工作原理第一步：抓取网页搜索引擎网络爬虫的基本工作流程如下：首先选取一部分的初始UR
python爬虫框架talonspider简单介绍

本文向大家介绍python爬虫框架talonspider简单介绍，包括了python爬虫框架talonspider简单介绍的使用技巧和注意事项，需要的朋友参考一下 1.为什么写这个？一些简单的页面，无需用比较大的框架来进行爬取，自己纯手写又比较麻烦因此针对这个需求写了talonspider: •1.针对单页面的item提取 - 具体介绍点这里 •2.spider模块 - 具体介绍点这里 2.介
爬虫项

爬虫项是什么呢？比如采集文章列表、文章详情页，他们都是不同的采集项。定义示例：继承Yurun\Crawler\Module\Crawler\Contract\BaseCrawlerItem类。 <?php namespace Yurun\CrawlerApp\Module\YurunBlog\Article; use Imi\Bean\Annotation\Bean; use Yurun\C
4. 编写基本的爬虫

4. 编写基本的爬虫在WebMagic里，实现一个基本的爬虫只需要编写一个类，实现PageProcessor接口即可。这个类基本上包含了抓取一个网站，你需要写的所有代码。同时这部分还会介绍如何使用WebMagic的抽取API，以及最常见的抓取结果保存的问题。

Creeper

简单的用例：

同类工具

相关阅读

相关文章

相关问答

相关文档