开源框架WebCollector抓取图片初试

庄经国

2023-12-01

官网地址：https://github.com/CrawlScript/WebCollector 。这是java版本，如果想要体验Python版本的话请移步 https://github.com/CrawlScript/WebCollector-Python

其它介绍文章

废话不多说，直接进入正题。首先用maven引入相关依赖，目前最新的是2.73-alpha版本

<dependency>
    <groupId>cn.edu.hfut.dmic.webcollector</groupId>
    <artifactId>WebCollector</artifactId>
    <version>2.73-alpha</version>
</dependency>

具体如何使用请看下面示例代码，用来抓取网站的图片，具体哪个网站不太方便给出来，大家自行尝试。

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.util.ExceptionUtils;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import cn.edu.hfut.dmic.webcollector.util.MD5Utils;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;

/**
 * 继承 BreadthCrawler（广度爬虫）
 * BreadthCrawler 是 WebCollector 最常用的爬取器之一
 *
 * @author hu
 */
public class DemoCrawler extends BreadthCrawler {
    File baseDir = new File("images");

    /**
     * 构造一个基于伯克利DB的爬虫
     * 伯克利DB文件夹为crawlPath，crawlPath中维护了历史URL等信息
     * 不同任务不要使用相同的crawlPath
     * 两个使用相同crawlPath的爬虫并行爬取会产生错误
     *
     * @param crawlPath 伯克利DB使用的文件夹
     */
    public DemoCrawler(String crawlPath) {
    	//设置是否自动解析网页内容
        super(crawlPath, true);

        //只有在autoParse和autoDetectImg都为true的情况下
        //爬虫才会自动解析图片链接
        //getConf().setAutoDetectImg(true);

        //如果使用默认的Requester，需要像下面这样设置一下网页大小上限
        //否则可能会获得一个不完整的页面
        //下面这行将页面大小上限设置为10M
        //getConf().setMaxReceiveSize(1024 * 1024 * 10);

        //添加种子URL
        addSeed("http://www.xxx.com");
        //限定爬取范围
        addRegex("http://image.xxx.com/.*");
        addRegex("-.*#.*");
        addRegex("-.*\\?.*");
        //设置线程数
        setThreads(10);
    }

    @Override
    public void visit(Page page, CrawlDatums next) {
        //根据http头中的Content-Type信息来判断当前资源是网页还是图片
        String contentType = page.contentType();
        if (contentType == null) {
            return;
        } else if (contentType.contains("html")) {
            //如果是网页，则抽取其中包含图片的URL，放入后续任务
            Elements imgs = page.select("img[src]");
            for (Element img : imgs) {
                String imgSrc = img.attr("abs:src");
                if (imgSrc.indexOf("thumb") < 0) {
                    next.add(imgSrc);
                }
            }
        } else if (contentType.startsWith("image")) {
            //如果是图片，直接下载
            String extensionName = contentType.split("/")[1];
            try {
                byte[] image = page.content();
                //限制文件大小 10k
                if (image.length < 10240) {
                    return;
                }
                //根据图片MD5生成文件名
                String fileName = String.format("%s.%s", MD5Utils.md5(image), extensionName);
                File imageFile = new File(baseDir, fileName);
                FileUtils.write(imageFile, image);
                System.out.println("保存图片 " + page.url() + " 到 " + imageFile.getAbsolutePath());
            } catch (Exception e) {
                ExceptionUtils.fail(e);
            }
        }
    }

	// 主要解决下载图片出现403的问题
    // 自定义的请求插件
    // 可以自定义User-Agent和Cookie
    public static class MyRequester extends OkHttpRequester {
        String userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36";

        // 每次发送请求前都会执行这个方法来构建请求
        @Override
        public Request.Builder createRequestBuilder(CrawlDatum crawlDatum) {
            // 这里使用的是OkHttp中的Request.Builder
            // 可以参考OkHttp的文档来修改请求头
            return super.createRequestBuilder(crawlDatum)
                   .removeHeader("User-Agent")  //移除默认的UserAgent
                   .addHeader("Referer", "http://www.xxx.com")
                   .addHeader("User-Agent", userAgent);
        }
    }

    public static void main(String[] args) throws Exception {
    	//crawl为日志目录
        DemoCrawler demoImageCrawler = new DemoCrawler("crawl");
        demoImageCrawler.setRequester(new MyRequester());
        //设置为断点爬取，否则每次开启爬虫都会重新爬取
        demoImageCrawler.setResumable(true);
        //爬取深度
        demoImageCrawler.start(5);
    }
}

示例代码参考了以下来源，稍微优化了一下
http://datahref.com/archives/132

开源框架WebCollector抓取图片初试

相关阅读

相关文章

相关问答

相关文档