当前位置: 首页 > 软件库 > 应用工具 > 网络爬虫 >

Colly

简单快速的 Web 爬虫框架
授权协议 Apache 2.0
开发语言 Google Go
所属分类 应用工具、 网络爬虫
软件类型 开源软件
地区 不详
投 递 者 岑元徽
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。

项目特性

  • 清晰明了的 API 

  • 快速(单个内核上的请求数大于1k)

  • 管理每个域的请求延迟和最大并发数

  • 自动 cookie 和会话处理

  • 同步/异步/并行抓取

  • 高速缓存

  • 自动处理非 Unicode 编码

  • 支持 Robots.txt

  • 支持 Google App Engine

  • 通关环境变量进行配置

  • 可扩展

示例

func main() {
	c := colly.NewCollector()

	// Find and visit all links
	c.OnHTML("a[href]", func(e *colly.HTMLElement) {
		e.Request.Visit(e.Attr("href"))
	})

	c.OnRequest(func(r *colly.Request) {
		fmt.Println("Visiting", r.URL)
	})

	c.Visit("http://go-colly.org/")
}
  • 目录 递归深度 规则 并行 分布式         通过《Colly源码解析——框架》分析,我们可以知道Colly执行的主要流程。本文将结合Scraping Framework for Golang上的例子分析一些高级设置的底层实现。(转载请指明出于breaksoftware的csdn博客) 递归深度         以下例子截取于Basic c := colly.NewCollector(

  • colly爬虫库学习笔记 前言 稍微的学习了一下Go语言的基础知识(错误处理和协程通道这些还没看),想着能不能做点东西,突然想到自己当时学了python之后就是专门为了写爬虫(虽然后来也咕了,只会一个request.get和post),所以也稍微的学习一下Go语言的爬虫(暂时不会太深入,更深入的东西等以后再慢慢学了)。 安装 因为用的是Goland,所以安装直接就让Goland来安装了。 学习笔记

  • 写在前面 此文翻译自点击阅读原文,建议英语能力好的同学阅读原文进行学习。 点击阅读Colly文档,点击阅读Goquery文档 Go语言爬虫框架之Colly和Goquery Python框架框架比较有BeautifulSoup或Scrapy,基于Go的爬虫框架是比较强健的,尤其Colly和Goquery是比较强大的工具,其灵活性和 表达性都比较优秀。 网络爬虫 网络爬虫是什么?从本质上讲,网络爬虫的

  • 一、安装 go get -u github.com/gocolly/colly/... 二、入门 import "github.com/gocolly/colly" 2.1 收集器 Colly 的主要实例是收集器对象,当Colly 收集器任务运行时,收集器负责网络通讯和执行附加的回调任务。你必须初始化收集器 c := colly.NewCollector() 2.1.1 收集器配置 全面的收

  • 简介 模拟账号密码登录 cookie登录 以及字符串cookie登录 csrf_token 处理 demo package main import ( "fmt" "github.com/gocolly/colly" "github.com/gocolly/colly/extensions" "log" "net/http" "os" "strings" "time" ) /*

  • 介绍 本章节使用OnResponse进行返回网页数据 使用xpath定位数据; 推荐htmlquery demo package main import ( "fmt" "github.com/antchfx/htmlquery" "github.com/gocolly/colly" "github.com/gocolly/colly/extensions" "gopkg.in/xml

  • colly 是 Go 实现的比较有名的一款爬虫框架,而且 Go 在高并发和分布式场景的优势也正是爬虫技术所需要的。它的主要特点是轻量、快速,设计非常优雅,并且分布式的支持也非常简单,易于扩展。 使用 go get -u github.com/gocolly/colly 第一步,导入colly import "github.com/gocolly/colly" 第二步,创建采集器 c := coll

  •         Colly是一个使用golang实现的数据抓取框架,我们可以使用它快速搭建类似网络爬虫这样的应用。本文我们将剖析其源码,以探析其中奥秘。(转载请指明出于breaksoftware的csdn博客)         Collector是Colly的核心结构体,其中包含了用户对框架行为的定义。一般情况下,我们可以使用NewCollector方法构建一个它的指针 // NewCollect

  • colly爬虫框架 colly是用go实现的网络爬虫框架 这个框架与python的scrapy框架很像 数据清洗时,可以像jquery中一样用选择器来选择web元素 同时,清洗数据也可以使用xpath风格来定位元素 安装依赖 [ ~ ]# go get -u github.com/gocolly/colly/ colly中的Collector对象 collector := colly.NewCo

  • Colly是Go的爬虫框架,简单快速,适合日常工作获取数据。 安装 go get -u github.com/gocolly/colly/... 示例1 package main import ( "fmt" "time" "github.com/gocolly/colly" ) func main() { ua := "Mozilla/5.0 (Windows NT 10.0;

  • go的爬虫工具教你如何去翻译(go调用js,colly的使用) 分析过程 https://blog.csdn.net/a1309525802/article/details/108394021 go代码 package main import ( "encoding/json" "fmt" "regexp" "github.com/dop251/goja" "github.com/g

 相关资料
  • 本文向大家介绍python爬虫框架talonspider简单介绍,包括了python爬虫框架talonspider简单介绍的使用技巧和注意事项,需要的朋友参考一下 1.为什么写这个? 一些简单的页面,无需用比较大的框架来进行爬取,自己纯手写又比较麻烦 因此针对这个需求写了talonspider: •1.针对单页面的item提取 - 具体介绍点这里 •2.spider模块 - 具体介绍点这里 2.介

  • 本文向大家介绍使用Python的Scrapy框架编写web爬虫的简单示例,包括了使用Python的Scrapy框架编写web爬虫的简单示例的使用技巧和注意事项,需要的朋友参考一下  在这个教材中,我们假定你已经安装了Scrapy。假如你没有安装,你可以参考这个安装指南。 我们将会用开放目录项目(dmoz)作为我们例子去抓取。 这个教材将会带你走过下面这几个方面:     创造一个新的Scrapy项

  • 本文向大家介绍简单好用的nodejs 爬虫框架分享,包括了简单好用的nodejs 爬虫框架分享的使用技巧和注意事项,需要的朋友参考一下 这个就是一篇介绍爬虫框架的文章,开头就不说什么剧情了。什么最近一个项目了,什么分享新知了,剧情是挺好,但介绍的很初级,根本就没有办法应用,不支持队列的爬虫,都是耍流氓。 所以我就先来举一个例子,看一下这个爬虫框架是多么简单并可用。 第一步:安装 Crawl-pet

  • 本文向大家介绍分享一个简单的java爬虫框架,包括了分享一个简单的java爬虫框架的使用技巧和注意事项,需要的朋友参考一下 反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架 可以自定义的部分有: 请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式 储存方式(默认储存在f盘的html文件夹下),可以通过SaveUtil接口来

  • 本文向大家介绍Python的Scrapy爬虫框架简单学习笔记,包括了Python的Scrapy爬虫框架简单学习笔记的使用技巧和注意事项,需要的朋友参考一下  一、简单配置,获取单个网页上的内容。 (1)创建scrapy项目 (2)编辑 items.py     (3)在 spiders 文件夹下,创建 blog_spider.py 需要熟悉下xpath选择,感觉跟JQuery选择器差不多,但是不如

  • 本文向大家介绍python爬虫爬取图片的简单代码,包括了python爬虫爬取图片的简单代码的使用技巧和注意事项,需要的朋友参考一下 Python是很好的爬虫工具不用再说了,它可以满足我们爬取网络内容的需求,那最简单的爬取网络上的图片,可以通过很简单的方法实现。只需导入正则表达式模块,并利用spider原理通过使用定义函数的方法可以轻松的实现爬取图片的需求。 1、spider原理 spider就是定

  • 本文向大家介绍php实现简单爬虫的开发,包括了php实现简单爬虫的开发的使用技巧和注意事项,需要的朋友参考一下 有时候因为工作、自身的需求,我们都会去浏览不同网站去获取我们需要的数据,于是爬虫应运而生,下面是我在开发一个简单爬虫的经过与遇到的问题。     开发一个爬虫,首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章,并获取它的链接,以便我快速阅读。     按照

  • 本文向大家介绍PHP实现简单爬虫的方法,包括了PHP实现简单爬虫的方法的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下: 希望本文所述对大家的php程序设计有所帮助。