当前位置：首页 > 工具软件 > xxl-crawler > 使用案例 >

XXL-CRAWLER v1.1.0 发布了

丌官星渊

2023-12-01

版本 V1.1.0，新特性[2017-18-06]

1、页面默认cssQuery调整为html标签；
2、升级Jsoup至1.11.1版本；
3、修复PageVO注解失效的问题；
4、属性注解参数attributeKey调整为selectVal；
5、代理IP：对抗反采集策略规则WAF；
6、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

简介

XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理"等特性；

特性

1、面向对象：通过VO对象描述页面信息，提供注解方便的映射页面数据，爬取结果主动封装Java对象返回；
2、多线程；
3、扩散全站：将会以现有URL为起点扩散爬取整站；
4、去重：防止重复爬取；
5、URL白名单：支持设置页面白名单正则，过滤URL；
6、异步：支持同步、异步两种方式运行；
7、自定义请求信息，如：请求参数、Cookie、userAgent等；
8、轻量级：底层实现仅依赖jsoup，简洁高效；
9、超时控制：支持设置爬虫请求的超时时间；
10、主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；
11、单个页面支持抽取一个或多个PageVO；
12、代理IP：对抗反采集策略规则WAF；
13、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

文档地址

中文文档

源码仓库地址

源码仓库地址	Release Download
github.com/xuxueli/xxl…	Download
gitee.com/xuxueli0323…	Download

技术交流

社区交流

类似资料：

相关阅读

Django REST批量发布/发布JSON对象数组 jQuery发布到Rails 中止AJAX发布 XMLHttpRequest发布数据未发送 MySQL订单发布的最新评论或最新发布

相关文章

Spring Cloud 全链路灰度发布方案 Java10 基于时间的发布版本控制消息中间件 RabbitMQ 之发布高级确认如何开发一套高容错分布式系统百度 | 分布式计算研发工程师 | 一面（凉经）

相关问答

gradle-发布构建和发布非快照工件了解Meteor发布/订阅 Ajax发布在socket.io Redis莴苣发布发布API PRESTASHOP 1.7

相关文档

蓝天数据采集发布系统分布式 Java 幕布帮助文档 ZooKeeper 分布式进程协同 Masonry 瀑布流插件中文API文档