当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

SeimiCrawler

Java爬虫框架

授权协议 Apache

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者仲孙鸿飞

操作系统跨平台

开源组织无

适用人群未知

软件概览

SeimiCrawler 是一个敏捷的、独立部署的、支持分布式的 Java 爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在 SeimiCrawler 的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的 Seimi 帮你搞定。设计思想上 SeimiCrawler 受 Python 的爬虫框架 Scrapy 启发，同时融合了 Java 语言本身特点与 Spring 的特性，并希望在国内更方便且普遍的使用更有效率的 XPath 解析 HTML，所以 SeimiCrawler 默认的 HTML 解析器是 JsoupXpath (独立扩展项目，非 jsoup 自带)，默认解析提取 HTML 数据工作均使用 XPath 来完成（当然，数据处理亦可以自行选择其他解析器）。并结合 SeimiAgent 彻底完美解决复杂动态页面渲染抓取问题。V2.0 版本开始无缝支持 SpringBoot。

原理示例

基本原理

SeimiCrawler原理图

集群原理

SeimiCrawler集群原理图

快速开始

添加 maven 依赖 (已经同步到中央 maven 库，最新版本参见项目主页)：

cn.wanghaomiao
    SeimiCrawler
    x.x.x

在包 crawlers 下添加爬虫规则，例如：

@Crawler(name = "basic")
public class Basic extends BaseSeimiCrawler {
    @Override
    public String[] startUrls() {
        return new String[]{"http://www.cnblogs.com/"};
    }
    @Override
    public void start(Response response) {
        JXDocument doc = response.document();
        try {
            List urls = doc.sel("//a[@class='titlelnk']/@href");
            logger.info("{}", urls.size());
            for (Object s:urls){
                push(new Request(s.toString(),Basic::getTitle));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    public void getTitle(Response response){
        JXDocument doc = response.document();
        try {
            logger.info("url:{} {}", response.getUrl(), doc.sel("//h1[@class='postTitle']/a/text()|//a[@id='cb_post_title_url']/text()"));
            //do something
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

然后随便某个包下添加启动 Main 函数，启动 SeimiCrawler：

public class Boot {
    public static void main(String[] args){
        Seimi s = new Seimi();
        s.start("basic");
    }
}

以上便是一个最简单的爬虫系统开发流程。

更多文档

目前可以参考 demo 工程中的样例，基本包含了主要的特性用法。更为细致的文档移步 SeimiCrawler 主页中进一步查看。

使用案例

Java分布式爬虫seimicrawler

最近在扒一些数据，原本使用jsoup，但是发觉这个框架爬取的效率不高，用起来也不是很方便，了解了一些爬虫框架之后，决定使用SeimiCrawler来爬取数据。开发环境：ideal+mybatis+SeimiCrawler 环境配置，具体的不解释，做过Java开发的明白，直接上配置文件：注意：SeimiCrawler相关的配置必须以seimi开头；全局配置：seimi.xml <?xml ver
Java爬虫框架：SeimiCrawler——结构化解析与数据存储

本文将介绍如何使用SeimiCrawler将页面中信息提取为结构化数据并存储到数据库中，这也是大家非常常见的使用场景。数据抓取将以抓取博客园的博客为例。建立基本数据结构为了演示，简单起见只建立一个用来存储博客标题和内容两个主要信息的表即可。表如下： CREATE TABLE `blog` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varch
【转载】SeimiCrawler

SeimiCrawler2.0 https://blog.csdn.net/zhegexiaohuozi/article/details/80809922 demo:https://github.com/zhegexiaohuozi/SeimiCrawler/tree/master/spring-boot-example
SeimiCrawler v1.2.0发布，Java爬虫框架

变更日志 v1.2.0 OkhttpDownloader支持处理contentType头中没有指定编码的中文页面支持通过@Crawler注解中的httpTimeOut属性自定义http请求的超时时间，默认15000ms v1.1.0 可通过实现SeimiCrawler的List<Request> startRequests();来实现更复杂的起始触发请求 SemiQueue实现按需加载修复抓取
【转载】seimicrawler爬虫

Java分布式爬虫seimicrawler： https://blog.csdn.net/z2464342708m/article/details/80689030
Java爬虫框架：SeimiCrawler v1.0.0发布

变更日志 v1.0.0 http请求处理器重构，并默认改由okhttp3实现，且支持通过@Crawler注解中的httpType自由切换为apache httpclient 部分代码优化支持通过seimiAgent获取页面快照（png/pdf）简介 SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门
Java爬虫框框：SeimiCrawler v0.3.0发布

Change log v0.3.0 内置支持SeimiAgent，完美解决动态页面渲染抓取问题修复自动跳转在某些情况存在的bug 简介 SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，
Java爬虫框架：SeimiCrawler v0.2.7发布

Change log v0.2.7 内嵌http接口在可以接收单个Json形式Request基础上增加支持接收Json数组形式的多个Request Request对象支持设置skipDuplicateFilter用来告诉seimi处理器跳过去重机制，默认不跳过增加定时调度使用Demo 回调函数通过Request传递自定义参数值类型由Object改为String，方便明确处理 Fix:修复一个打日

SeimiCrawler

原理示例

基本原理

集群原理

快速开始

更多文档

同类工具

相关阅读

相关文章

相关问答

相关文档