Proxy-Pool

给爬虫使用的代理 IP 池
授权协议 Apache 2.0
开发语言 Java
所属分类 服务器软件、 代理服务器软件
软件类型 开源软件
地区 国产
投 递 者 沈健
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

ProxyPool

获取可用代理池的库,从网上抓取的代理很多都是不可用的。这个库先用爬虫抓取代理,再做一些检查是否可用,可用的话就存放到mongodb中。

ProxyPool可以供给网络爬虫使用,ProxyPool由Spring Boot+RxJava2.x+MongoDB搭建

使用方法:

单独使用ProxyPool抓取逻辑,无任何界面,可用于任何项目,无侵入性

对于Java工程如果使用gradle构建,由于默认没有使用jcenter(),需要在相应module的build.gradle中配置

repositories {
    mavenCentral()
    jcenter()
}

Gradle:

compile 'com.cv4j.proxy:proxypool:1.1.5'

也可以将该repository clone下来独立运行,带web界面

本地需要事先搭建好MongoDB的环境。

可用的代理会存放到MongoDB中,每隔几小时(可配置)会重新抓取一次可用的代理。如果在抓取代理时遇到http status 503的情况,代理池会使用其中的代理来访问数据源再进行抓取。

最新的免费代理资源:http://47.97.7.119:8080/proxypool/proxylist

管理代理资源网站:http://47.97.7.119:8080/proxypool/resourcelist

把代理资源添加到计划任务:http://47.97.7.119:8080/proxypool/planlist

预览效果如下:

另外,还提供了一个接口,可以返回代理池中的Proxy

线上环境地址:http://47.97.7.119:8080/proxypool/proxys/{count}

类型:GET

参数说明:count<=0 count="">数据库里总数量, 也返回全部的代理数据

以上链接在本地运行时,请把具体的IP地址替换成localhost即可

  • 如无法连接Redis,报错: 1、进入ProxyPool-master\ProxyPool-master\proxypool 2、修改db.py中与redis建立连接的所有zadd方法,修改方法如下: zadd只能接收两个参数,所以需要把三个参数改成两个 def add(self, proxy, score=INITIAL_SCORE): if not re.match('\d+\.\d+\.\d

  • 错误信息提示如下 Exception in thread "HiveServer2-Handler-Pool: Thread-67" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringB

  • 环境 vue3 + setup语法糖 一般情况下 子组件使用 defineProps接受父组件传过来的数据 const props = defineProps(['data']) 这个时候的props没有数据代理,不具有响应式 const {proxy} = getCurrentInstance() 从 proxy中也可以拿到props中的值  但是这个值是具有响应式的 故在js中要使用父组件

  • pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -i https://pypi.tuna.tsinghua.edu.cn/simple APScheduler pip install -i https://pypi.tuna.tsinghua.edu.cn/simple werkzeug pip install

  • ProxyPool:https://github.com/yucaifuyoyo/ProxyPool github上一个开源项目的proxypool添加一些免费代理IP网站 1.https://www.kuaidaili.com/free/inha/1/ # 快代理 2.http://www.xicidaili.com/wt/1 # 西刺免费代理IP 3.http://www.6

 相关资料
  • 本文向大家介绍Python代理IP爬虫的新手使用教程,包括了Python代理IP爬虫的新手使用教程的使用技巧和注意事项,需要的朋友参考一下 前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问题。 本人自己在爬取豆瓣读书的时候,就以为爬取次数过多,直接被封

  • 本文向大家介绍python3 Scrapy爬虫框架ip代理配置的方法,包括了python3 Scrapy爬虫框架ip代理配置的方法的使用技巧和注意事项,需要的朋友参考一下 什么是Scrapy?   Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。

  • 本文向大家介绍Python3网络爬虫之使用User Agent和代理IP隐藏身份,包括了Python3网络爬虫之使用User Agent和代理IP隐藏身份的使用技巧和注意事项,需要的朋友参考一下 本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 一

  • 本文向大家介绍Python爬虫抓取代理IP并检验可用性的实例,包括了Python爬虫抓取代理IP并检验可用性的实例的使用技巧和注意事项,需要的朋友参考一下 经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!! 至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太

  • 本文向大家介绍Python实现的异步代理爬虫及代理池,包括了Python实现的异步代理爬虫及代理池的使用技巧和注意事项,需要的朋友参考一下 使用python asyncio实现了一个异步代理池,根据规则爬取代理网站上的免费代理,在验证其有效后存入redis中,定期扩展代理的数量并检验池中代理的有效性,移除失效的代理。同时用aiohttp实现了一个server,其他的程序可以通过访问相应的url来从

  • 本文向大家介绍利用Python爬取可用的代理IP,包括了利用Python爬取可用的代理IP的使用技巧和注意事项,需要的朋友参考一下 前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来。 脚本如下:  运行成功后,打开E盘下的文件,可以看到如下可用