Java爬虫框架：SeimiCrawler v1.0.0发布

长孙泉

2023-12-01

变更日志

v1.0.0

http请求处理器重构，并默认改由okhttp3实现，且支持通过@Crawler注解中的httpType自由切换为apache httpclient
部分代码优化
支持通过seimiAgent获取页面快照（png/pdf）

简介

SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发很大，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。

项目源码

Github

项目主页

SeimiCrawler

社区讨论

大家有什么问题或建议现在都可以选择通过下面的邮件列表讨论，首次发言前需先订阅并等待审核通过（主要用来屏蔽广告宣传等）

订阅:请发邮件到 seimicrawler+subscribe@googlegroups.com
发言:请发邮件到 seimicrawler@googlegroups.com
退订:请发邮件至 seimicrawler+unsubscribe@googlegroups.com

Java爬虫框架：SeimiCrawler v1.0.0发布

变更日志

v1.0.0

简介

项目源码

项目主页

更多文档

社区讨论

相关阅读

相关文章

相关问答

相关文档