当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

GECCO

易用的轻量化的网络爬虫

授权协议 MIT

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者太叔飞翰

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Gecco是什么

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，让您只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。Gecco框架有优秀的可扩展性，框架基于开闭原则进行设计，对修改关闭、对扩展开放。同时Gecco基于十分开放的MIT开源协议，无论你是使用者还是希望共同完善Gecco的开发者，欢迎pull request。如果你喜欢这款爬虫框架请star 或者 fork!

参考手册

主要特征

简单易用，使用jquery风格的选择器抽取元素
支持页面中的异步ajax请求
支持页面中的javascript变量抽取
利用Redis实现分布式抓取,参考gecco-redis
支持结合Spring开发业务逻辑,参考gecco-spring
支持htmlunit扩展,参考gecco-htmlunit
支持插件扩展机制
支持下载时UserAgent随机选取
支持下载代理服务器随机选取

使用案例

java爬虫gecco的稳定性测试

#java爬虫gecco的稳定性测试最近对开源的java爬虫Gecco做了一个稳定性测试，测试环境：一台爬虫+web应用服务器，一台mongodb服务器。服务器配置很low，两台都是阿里云最低端的主机，1核+512内存。 ##单线程测试场景爬虫采用单线程，测试时间3×24小时，测试期间系统无异常，jvm内存稳定。测试结果：基本信息 Interval: 5000, StartTime:
Gecco学习笔记（二）

2021SC@SDUSC 本篇文章我会相对Gecco进行一下大体的框架概述 GeccoEngine GeccoEngine 是爬虫引擎，每个爬虫引擎最好是一个独立进程，在分布式爬虫场景下，建议每台爬虫服务器（物理机或者虚机）运行一个 GeccoEngine。爬虫引擎包括 Scheduler、Downloader、Spider、SpiderBeanFactory、PipelineFactory5 个
Gecco学习笔记（三）

2021SC@SDUSC 简单说明一下Gecco中的公共注解说明定义一个SpiderBean必须有的注解，告诉爬虫引擎什么样的url转换成该java bean，使用什么渲染器渲染，java bean渲染完成后传递给哪些管道过滤器继续处理 matchUrl：摒弃正则表达式的匹配方式，采用更容易理解的{value}方式，如：https://github.com/{user}/{project}。us
Gecco学习笔记（六）

2021SC@SDUSC 接上篇先定位解析出所有的href超链接，即每个列表项对应的文章详情地址，然后解析文章详情的所有文本信息 Category类如下 package com.crawler.gecco; import com.geccocrawler.gecco.annotation.HtmlField; import com.geccocrawler.gecco.annotation.T
Gecco学习笔记（五）

2021SC@SDUSC 下面通过实例，边实战边说明Gecco的用法。 Gecco爬取分类数据爬取思路首先明确爬取的种子网站：http://news.iresearch.cn/ 编写爬虫启动入口我新建的是maven项目，所以要使用Gecco，第一步是添加maven依赖 <dependency> <groupId>com.geccocrawler</groupId> <arti
Gecco学习笔记（八）

2021SC@SDUSC 最近在分析Gecco的源代码，所以就想着测试一下java爬虫gecco的稳定性测试结果：基本信息 Interval: 5000, StartTime: "2016-03-22 14:47:40", ThreadCount: 1, StarUrlCount: 8 单线程，共有8个初始抓取链接，每个请求抓取完成后休息5秒。爬虫监控数据 taocan.ctri
Gecco学习笔记（七）

2021SC@SDUSC 简述一下Gecco爬虫框架线程和队列模型 gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列，在非循环模式下是一个非阻塞式的FIFO队列。派生队列是一个非阻塞的剔重的FIFO队列；线程首先去初始请求队列按照FIFO原则获取一个请求，如果线程数量大于初始请求队列的数量，多余的线程就会待定新的初始请求入队，
gecco源码分析

（1）GeccoEngine->run（） 1.默认采用proxys文件代理集合 2.scheduler的设置，在循环状态下scheduler = new StartScheduler() 否则 scheduler = new NoLoopStartScheduler(); 3若spiderBeanFactory为空，则进行初始化 4.设置cdl的值，数目为线程数目 5.将starts.json文
gecco爬虫初见与综述

2021SC@SDUSC Gecco是一款用java语言开发的轻量化的易用的网络爬虫。作为国内大佬研发的java网络爬虫，Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，我们使用者只需要配置一些jquery风格的选择器就能很快的写出一个爬虫。同时这个Gecco框架有优秀的可扩展性，框架基于开闭原则进行设计，对修改关闭
java Gecco的爬虫框架的使用

Gecco是一款用java语言开发的轻量化的易用的网络爬虫。主要特征：简单易用，使用jquery的selector风格抽取元素支持页面中的异步ajax请求支持页面中的javascript变量抽取利用Redis实现分布式抓取,参考gecco-redis 支持下载时UserAgent随机选取支持下载代理服务器随机选取支持结合Spring开发业务逻辑,参考gecco-spring 支持ht
gecco的模拟登录（仅供学习）

一、java获取cookie 啥也不说，看代码（这是爬取的一个小说网站的个人书架） public Map<String, String> loginIn(String loginUrl) throws IOException { // 构造登陆参数 Map<String, String> data = new HashMap<String, String>
用Gecco爬虫采集数据

说起网络爬虫大家首先都会想到python爬虫，但是用Java实现爬虫的也很多，也有很多爬虫框架，今天我想说说我使用什么做爬虫的。其实我也是一个爬虫白痴，刚接触爬虫的时候都是用纯java去做，但是做到一半的时候发现要写的代码真多，所以就找Java爬虫框架，于是就碰到了GECCO，说起这个GECCO，确实比较适合入门，下面就说说这个框架是如何使用的。 @Gecco(matchUrl="https:
gecco爬虫框架使用指南

gecco爬虫框架是几年前的一个框架了，但是现阶段用来爬一些普通网站使用起来还是很方便的。 pom引入： <dependency> <groupId>com.geccocrawler</groupId> <artifactId>gecco</artifactId> <version>1.3.21</version> </dependency> 代码可分为三部分：一、启动代
Gecco学习笔记（十）

2021SC@SDUSC 用四篇文章简单使用一下Gecco爬虫使用java爬虫gecco抓取JD全部商品信息 gecco爬虫十分的简单易用，JD全部商品信息的抓取9个类就能搞定。要抓取JD网站的全部商品信息，首页上通过分类跳转到商品列表页，商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息。 ##入口地址 http://www.jd.com/allSort.aspx
Gecco学习笔记（十一）

2021SC@SDUSC 接上篇完成对AllSort的注入后，我们需要对AllSort进行业务处理，这里我们不做分类信息持久化等处理，只对分类链接进行提取，进一步抓取商品列表信息。看代码： @PipelineName("allSortPipeline") public class AllSortPipeline implements Pipeline<AllSort> { @Override
Gecco学习笔记（十二）

2021SC@SDUSC 接上篇 public class ProductBrief implements HtmlBean { private static final long serialVersionUID = -377053120283382723L; @Attr("data-sku") @HtmlField(cssPath=".j-sku-item") private St

GECCO

Gecco是什么

主要特征

同类工具

相关阅读

相关文章

相关问答

相关文档