一个简约灵活强大的Java爬虫框架。
1、代码简单易懂,可定制性强
2、简单且易于使用的api
3、支持文件下载、分块抓取
4、请求和相应支持的内容和选项比较丰富、每个请求可定制性强
5、支持网络请求前后执行自定义操作
6、Selenium+PhantomJS支持
7、Redis支持
1、Complete the code comment and test(完善代码注释和完善测试代码)
import com.github.xbynet.crawler.http.DefaultDownloader; import com.github.xbynet.crawler.http.FileDownloader; import com.github.xbynet.crawler.http.HttpClientFactory; import com.github.xbynet.crawler.parser.JsoupParser; import com.github.xbynet.crawler.scheduler.DefaultScheduler; public class GithubCrawler extends Processor { @Override public void process(Response resp) { String currentUrl = resp.getRequest().getUrl(); System.out.println("CurrentUrl:" + currentUrl); int respCode = resp.getCode(); System.out.println("ResponseCode:" + respCode); System.out.println("type:" + resp.getRespType().name()); String contentType = resp.getContentType(); System.out.println("ContentType:" + contentType); Map> headers = resp.getHeaders(); System.out.println("ResonseHeaders:"); for (String key : headers.keySet()) { List values=headers.get(key); for(String str:values){ System.out.println(key + ":" +str); } } JsoupParser parser = resp.html(); // suppport parted ,分块抓取是会有个parent response来关联所有分块response // System.out.println("isParted:"+resp.isPartResponse()); // Response parent=resp.getParentResponse(); // resp.addPartRequest(null); //Map extras=resp.getRequest().getExtras(); if (currentUrl.equals("https://github.com/xbynet")) { String avatar = parser.single("img.avatar", "src"); String dir = System.getProperty("java.io.tmpdir"); String savePath = Paths.get(dir, UUID.randomUUID().toString()) .toString(); boolean avatarDownloaded = download(avatar, savePath); System.out.println("avatar:" + avatar + ", saved:" + savePath); // System.out.println("avtar downloaded status:"+avatarDownloaded); String name = parser.single(".vcard-names > .vcard-fullname", "text"); System.out.println("name:" + name); List reponames = parser.list( ".pinned-repos-list .repo.js-repo", "text"); List repoUrls = parser.list( ".pinned-repo-item .d-block >a", "href"); System.out.println("reponame:url"); if (reponames != null) { for (int i = 0; i < reponames.size(); i++) { String tmpUrl="https://github.com"+repoUrls.get(i); System.out.println(reponames.get(i) + ":"+tmpUrl); Request req=new Request(tmpUrl).putExtra("name", reponames.get(i)); resp.addRequest(req); } } }else{ Map extras=resp.getRequest().getExtras(); String name=extras.get("name").toString(); System.out.println("repoName:"+name); String shortDesc=parser.single(".repository-meta-content","allText"); System.out.println("shortDesc:"+shortDesc); } } public void start() { Site site = new Site(); Spider spider = Spider.builder(this).threadNum(5).site(site) .urls("https://github.com/xbynet").build(); spider.run(); } public static void main(String[] args) { new GithubCrawler().start(); } public void startCompleteConfig() { String pcUA = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"; String androidUA = "Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36"; Site site = new Site(); site.setEncoding("UTF-8").setHeader("Referer", "https://github.com/") .setRetry(3).setRetrySleep(3000).setSleep(50).setTimeout(30000) .setUa(pcUA); Request request = new Request("https://github.com/xbynet"); HttpClientContext ctx = new HttpClientContext(); BasicCookieStore cookieStore = new BasicCookieStore(); ctx.setCookieStore(cookieStore); request.setAction(new RequestAction() { @Override public void before(CloseableHttpClient client, HttpUriRequest req) { System.out.println("before-haha"); } @Override public void after(CloseableHttpClient client, CloseableHttpResponse resp) { System.out.println("after-haha"); } }).setCtx(ctx).setEncoding("UTF-8") .putExtra("somekey", "I can use in the response by your own") .setHeader("User-Agent", pcUA).setMethod(Const.HttpMethod.GET) .setPartRequest(null).setEntity(null) .setParams("appkeyqqqqqq", "1213131232141").setRetryCount(5) .setRetrySleepTime(10000); Spider spider = Spider.builder(this).threadNum(5) .name("Spider-github-xbynet") .defaultDownloader(new DefaultDownloader()) .fileDownloader(new FileDownloader()) .httpClientFactory(new HttpClientFactory()).ipProvider(null) .listener(null).pool(null).scheduler(new DefaultScheduler()) .shutdownOnComplete(true).site(site).build(); spider.run(); } }
More Examples: Please see here
webmagic:本项目借鉴了webmagic多处代码,设计上也作了较多参考,非常感谢。
xsoup:本项目使用xsoup作为底层xpath处理器
JsonPath:本项目使用JsonPath作为底层jsonpath处理器
Jsoup 本项目使用Jsoup作为底层HTML/XML处理器
HttpClient 本项目使用HttpClient作为底层网络请求工具
软件简介 一个简约灵活强大的Java爬虫框架。 Features: 1、代码简单易懂,可定制性强 2、简单且易于使用的api 3、支持文件下载、分块抓取 4、请求和相应支持的内容和选项比较丰富、每个请求可定制性强 5、支持网络请求前后执行自定义操作 6、Selenium+PhantomJS支持 7、Redis支持 Future: 1、Complete the code comment and te
package cn.itcast.crawler; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.c
crawler-spring-boot-starter 相比于python爬虫,java爬虫框架要不就是如nutch这般太过重量级,要不就如webcollector一样,因为内置了BerkeleyDB, 所以会经常报一些莫名其妙的错误。为了解决这些问题,本人在开发搜索引擎的过程中编写了一个简单便捷的基于spring boot 的爬虫框架,此框架简单纯净,不内置任何数据库,而且线程利用率高、爬取
题目地址:Web Crawler Multithreaded - LeetCode Given a url startUrl and an interface HtmlParser, implement a Multi-threaded web crawler to crawl all links that are under the same hostname as startUrl. Retu
参考链接: Java|如何开始学习Java 小型简易爬虫源码(java版) 一,介绍: >这是我的第一个爬虫,比较简单,没有队列,广度优先算法等,用list集合代替了队列。 >而且只爬取一个网址上面的图片,并不是将网址中的链接<href>加入队列,然后下载一个网址一个网址下载其中的图片。
#!/usr/bin/bash ############################################################################### # name:Robot # date:2012-11-09 # desc:download porn pictures from baixingsex ##########################
Java Crawler(1)HTMLUnit pom.xml Add Few Dependencies + <dependency> + <groupId>net.sourceforge.htmlunit</groupId> + <artifactId>htmlunit</artifactId> + </dependency> + <dependency> + <groupId>net.sour
宇润爬虫框架 Yurun Crawler 是一个低代码、高性能、分布式爬虫采集框架,基于 imi 框架开发,运行在 Swoole 常驻内存的协程环境。
主要内容:Scrapy下载安装,创建Scrapy爬虫项目,Scrapy爬虫工作流程,settings配置文件Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架,该框架使用纯 Python 语言编写。Scrapy 框架应用广泛,常用于数据采集、网络监测,以及自动化测试等。 提示:Twisted 是一个基于事件驱动的网络引擎框架,同样采用 Python 实现。 Scrapy下载安装 Scrapy 支持常见的主流平台,比如 Linux、Mac、Windows 等,因此你可以很方便的安装它
有的时候,当我们的爬虫程序完成了,并且在本地测试也没有问题,爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候,我们很有可能是遇到了网站的反爬虫拦截。 我们知道,网站一方面想要爬虫爬取网站,比如让搜索引擎爬虫去爬取网站的内容,来增加网站的搜索排名。另一方面,由于网站的服务器资源有限,过多的非真实的用户对网站的大量访问,会增加运营成本和服务器负担。 因此,有些网站会设置一些反爬虫的措施。我
这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接,以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析,并且可以在解析的同时创建一个新的请求,你还可以直接调用spider模块来实现,这样就不需要自己去写
WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。 这本小书以WebMagic入手,一方面讲解WebMagic的使用方式,另一方面讲解爬虫开发的一些惯用方案。
根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 就是 捜索引擎抓取系统,目的是将互联网上的所有的网页下载到本地,形成一个互联网内容的镜像备份。 它决定着整个搜索引擎内容的丰富性和时效性,因此它的性能优劣直接影响着搜索引擎的效果。 通用搜索引擎(Search Engine)工作原理 第一步:抓取网页 搜索引擎网络爬虫的基本工作流程如下: 首先选取一部分的初始UR
本文向大家介绍python爬虫框架talonspider简单介绍,包括了python爬虫框架talonspider简单介绍的使用技巧和注意事项,需要的朋友参考一下 1.为什么写这个? 一些简单的页面,无需用比较大的框架来进行爬取,自己纯手写又比较麻烦 因此针对这个需求写了talonspider: •1.针对单页面的item提取 - 具体介绍点这里 •2.spider模块 - 具体介绍点这里 2.介
爬虫项是什么呢?比如采集文章列表、文章详情页,他们都是不同的采集项。 定义示例: 继承Yurun\Crawler\Module\Crawler\Contract\BaseCrawlerItem类。 <?php namespace Yurun\CrawlerApp\Module\YurunBlog\Article; use Imi\Bean\Annotation\Bean; use Yurun\C