当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

CrawlerDemon

分布式爬虫

授权协议 GPL

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者后树

操作系统跨平台

开源组织无

适用人群未知

软件官网

官方下载

软件概览

CrawlerDemon 是垂直应用爬虫，基于akka+okHttp+spring+jsoup ，配置简单，上手容易，支持配置动态参数，动态代理，http自动重试。

特点

基于 akka 高性能分布式框架
使用 spring 配置请求参数
自动管理代理地址Ip，http请求重试，超过重复次数丢弃请求
针对任务请求，任务响应实现过滤(需要根据自己业务实现过滤逻辑)
配置多数据源存储抓取数据自由选择入库

系统核心组件

task 生成请求任务,填写请求的url ，页面编码，header ，parma 参数
actor 具体抓取actor，处理taskRequest 的请求转发，页面分页，taskResponse 过滤
parse 解析具体页面内容，写库操作。

相关资料

6.7 分布式爬虫

互联网时代的信息爆炸是很多人倍感头痛的问题，应接不暇的新闻、信息、视频，无孔不入地侵占着我们的碎片时间。但另一方面，在我们真正需要数据的时候，却感觉数据并不是那么容易获取的。比如我们想要分析现在人在讨论些什么，关心些什么。甚至有时候，可能我们只是暂时没有时间去一一阅览心仪的小说，但又想能用技术手段把它们存在自己的资料库里。哪怕是几个月或一年后再来回顾。再或者我们想要把互联网上这些稍纵即逝的有用信息
16. 分布式爬虫原理

在前面我们已经掌握了Scrapy框架爬虫，虽然爬虫是异步多线程的，但是我们只能在一台主机上运行，爬取效率还是有限。分布式爬虫则是将多台主机组合起来，共同完成一个爬取任务，将大大提高爬取的效率。 16.1 分布式爬虫架构回顾Scrapy的架构： Scrapy单机爬虫中有一个本地爬取队列Queue，这个队列是利用deque模块实现的。如果有新的Request产生，就会放到队列里面，随后Reque
Java多线程及分布式爬虫架构原理解析

本文向大家介绍Java多线程及分布式爬虫架构原理解析，包括了Java多线程及分布式爬虫架构原理解析的使用技巧和注意事项，需要的朋友参考一下这是 Java 爬虫系列博文的第五篇，在上一篇Java 爬虫服务器被屏蔽的解决方案中，我们简单的聊反爬虫策略和反反爬虫方法，主要针对的是 IP 被封及其对应办法。前面几篇文章我们把爬虫相关的基本知识都讲的差不多啦。这一篇我们来聊一聊爬虫架构相关的内容。前面几
分布式

一、分布式锁数据库的唯一索引 Redis 的 SETNX 指令 Redis 的 RedLock 算法 Zookeeper 的有序节点二、分布式事务 2PC 本地消息表三、CAP 一致性可用性分区容忍性权衡四、BASE 基本可用软状态最终一致性五、Paxos 执行过程约束条件六、Raft 单个 Candidate 的竞选多个 Candidate 竞选数据同步参考一、分
5.5 分布式

Consumer Offset Tracking（消费者offset跟踪）高级别的consumer跟踪每个分区已消费的offset，并定期提交，以便在重启的情况下可以从这些offset中恢复。Kafka提供了一个选项在指定的broker中来存储所有给定的consumer组的offset，称为offset manager。例如，该consumer组的所有consumer实例向offset mana
分布式 Java

《分布式 Java》是一本关于 Java 分布式应用的学习教程，是对市面上基于 Java 的分布式系统最佳实践的技术总结。图文并茂，并通过大量实例让你走近 Java 的世界！

CrawlerDemon

特点

系统核心组件

同类工具

相关阅读

相关文章

相关问答

相关文档