当前位置：首页 > 软件库 > 应用工具 > 网络爬虫 >

crawler-java

Java 爬虫框架

授权协议 MIT

开发语言 Java

所属分类应用工具、网络爬虫

软件类型开源软件

地区国产

投递者云俊美

操作系统跨平台

开源组织无

适用人群未知

软件概览

一个简约灵活强大的Java爬虫框架。

Features:

1、代码简单易懂，可定制性强
2、简单且易于使用的api
3、支持文件下载、分块抓取
4、请求和相应支持的内容和选项比较丰富、每个请求可定制性强
5、支持网络请求前后执行自定义操作
6、Selenium+PhantomJS支持
7、Redis支持

Future:

1、Complete the code comment and test(完善代码注释和完善测试代码)

demo:

import com.github.xbynet.crawler.http.DefaultDownloader;
import com.github.xbynet.crawler.http.FileDownloader;
import com.github.xbynet.crawler.http.HttpClientFactory;
import com.github.xbynet.crawler.parser.JsoupParser;
import com.github.xbynet.crawler.scheduler.DefaultScheduler;

public class GithubCrawler extends Processor {
	@Override
	public void process(Response resp) {
		String currentUrl = resp.getRequest().getUrl();
		System.out.println("CurrentUrl:" + currentUrl);
		int respCode = resp.getCode();
		System.out.println("ResponseCode:" + respCode);
		System.out.println("type:" + resp.getRespType().name());
		String contentType = resp.getContentType();
		System.out.println("ContentType:" + contentType);
		Map> headers = resp.getHeaders();
		System.out.println("ResonseHeaders:");
		for (String key : headers.keySet()) {
			List values=headers.get(key);
			for(String str:values){
				System.out.println(key + ":" +str);
			}
		}
		JsoupParser parser = resp.html();
		// suppport parted ,分块抓取是会有个parent response来关联所有分块response
		// System.out.println("isParted:"+resp.isPartResponse());
		// Response parent=resp.getParentResponse();
		// resp.addPartRequest(null);
		//Map extras=resp.getRequest().getExtras();

		if (currentUrl.equals("https://github.com/xbynet")) {
			String avatar = parser.single("img.avatar", "src");
			String dir = System.getProperty("java.io.tmpdir");
			String savePath = Paths.get(dir, UUID.randomUUID().toString())
					.toString();
			boolean avatarDownloaded = download(avatar, savePath);
			System.out.println("avatar:" + avatar + ", saved:" + savePath);
			// System.out.println("avtar downloaded status:"+avatarDownloaded);
			String name = parser.single(".vcard-names > .vcard-fullname",
					"text");
			System.out.println("name:" + name);
			List reponames = parser.list(
					".pinned-repos-list .repo.js-repo", "text");
			List repoUrls = parser.list(
					".pinned-repo-item .d-block >a", "href");
			System.out.println("reponame:url");
			if (reponames != null) {
				for (int i = 0; i < reponames.size(); i++) {
					String tmpUrl="https://github.com"+repoUrls.get(i);
					System.out.println(reponames.get(i) + ":"+tmpUrl);
					Request req=new Request(tmpUrl).putExtra("name", reponames.get(i));
					resp.addRequest(req);
				}
			}
		}else{
			Map extras=resp.getRequest().getExtras();
			String name=extras.get("name").toString();
			System.out.println("repoName:"+name);
			String shortDesc=parser.single(".repository-meta-content","allText");
			System.out.println("shortDesc:"+shortDesc);
		}
	}

	public void start() {
		Site site = new Site();
		Spider spider = Spider.builder(this).threadNum(5).site(site)
				.urls("https://github.com/xbynet").build();
		spider.run();
	}
  
	public static void main(String[] args) {
		new GithubCrawler().start();
	}
  
  
	public void startCompleteConfig() {
		String pcUA = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36";
		String androidUA = "Mozilla/5.0 (Linux; Android 5.1.1; Nexus 6 Build/LYZ28E) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.23 Mobile Safari/537.36";

		Site site = new Site();
		site.setEncoding("UTF-8").setHeader("Referer", "https://github.com/")
				.setRetry(3).setRetrySleep(3000).setSleep(50).setTimeout(30000)
				.setUa(pcUA);

		Request request = new Request("https://github.com/xbynet");
		HttpClientContext ctx = new HttpClientContext();
		BasicCookieStore cookieStore = new BasicCookieStore();
		ctx.setCookieStore(cookieStore);
		request.setAction(new RequestAction() {
			@Override
			public void before(CloseableHttpClient client, HttpUriRequest req) {
				System.out.println("before-haha");
			}

			@Override
			public void after(CloseableHttpClient client,
					CloseableHttpResponse resp) {
				System.out.println("after-haha");
			}
		}).setCtx(ctx).setEncoding("UTF-8")
				.putExtra("somekey", "I can use in the response by your own")
				.setHeader("User-Agent", pcUA).setMethod(Const.HttpMethod.GET)
				.setPartRequest(null).setEntity(null)
				.setParams("appkeyqqqqqq", "1213131232141").setRetryCount(5)
				.setRetrySleepTime(10000);

		Spider spider = Spider.builder(this).threadNum(5)
				.name("Spider-github-xbynet")
				.defaultDownloader(new DefaultDownloader())
				.fileDownloader(new FileDownloader())
				.httpClientFactory(new HttpClientFactory()).ipProvider(null)
				.listener(null).pool(null).scheduler(new DefaultScheduler())
				.shutdownOnComplete(true).site(site).build();
		spider.run();
	}


}

Examples:

Github(github个人项目信息)
OSChinaTweets(开源中国动弹)
Qiushibaike(醜事百科)
Neihanshequ(内涵段子)
ZihuRecommend(知乎推荐)

More Examples: Please see here

Thinks:

webmagic:本项目借鉴了webmagic多处代码，设计上也作了较多参考，非常感谢。
xsoup：本项目使用xsoup作为底层xpath处理器
JsonPath：本项目使用JsonPath作为底层jsonpath处理器
Jsoup 本项目使用Jsoup作为底层HTML/XML处理器
HttpClient 本项目使用HttpClient作为底层网络请求工具

使用案例

crawler-java

软件简介一个简约灵活强大的Java爬虫框架。 Features: 1、代码简单易懂，可定制性强 2、简单且易于使用的api 3、支持文件下载、分块抓取 4、请求和相应支持的内容和选项比较丰富、每个请求可定制性强 5、支持网络请求前后执行自定义操作 6、Selenium+PhantomJS支持 7、Redis支持 Future: 1、Complete the code comment and te
itcast-crawler-first(CrawlerFirst)

package cn.itcast.crawler; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.c
spring boot - crawler-spring-boot-starter - 一个简单快捷的爬虫框架（网页爬取，文章遍历）

crawler-spring-boot-starter 相比于python爬虫，java爬虫框架要不就是如nutch这般太过重量级，要不就如webcollector一样，因为内置了BerkeleyDB，所以会经常报一些莫名其妙的错误。为了解决这些问题，本人在开发搜索引擎的过程中编写了一个简单便捷的基于spring boot 的爬虫框架，此框架简单纯净，不内置任何数据库，而且线程利用率高、爬取
Web Crawler Multithreaded--Java 解法--网路爬虫并发系列--ConcurrentHashMap/Collections.synchroni

题目地址：Web Crawler Multithreaded - LeetCode Given a url startUrl and an interface HtmlParser, implement a Multi-threaded web crawler to crawl all links that are under the same hostname as startUrl. Retu
[转载] java简易爬虫Crawler

参考链接： Java|如何开始学习Java 小型简易爬虫源码（java版）一，介绍： >这是我的第一个爬虫，比较简单，没有队列，广度优先算法等，用list集合代替了队列。 >而且只爬取一个网址上面的图片，并不是将网址中的链接<href>加入队列，然后下载一个网址一个网址下载其中的图片。
Shell crawler

#!/usr/bin/bash ############################################################################### # name:Robot # date:2012-11-09 # desc:download porn pictures from baixingsex ##########################
Java Crawler(1)HTMLUnit

Java Crawler(1)HTMLUnit pom.xml Add Few Dependencies + <dependency> + <groupId>net.sourceforge.htmlunit</groupId> + <artifactId>htmlunit</artifactId> + </dependency> + <dependency> + <groupId>net.sour

crawler-java

Features:

Future:

demo:

Examples:

Thinks:

同类工具

相关阅读

相关文章

相关问答

相关文档