获取可用代理池的库,从网上抓取的代理很多都是不可用的。这个库先用爬虫抓取代理,再做一些检查是否可用,可用的话就存放到mongodb中。
ProxyPool可以供给网络爬虫使用,ProxyPool由Spring Boot+RxJava2.x+MongoDB搭建
对于Java工程如果使用gradle构建,由于默认没有使用jcenter(),需要在相应module的build.gradle中配置
repositories { mavenCentral() jcenter() }
Gradle:
compile 'com.cv4j.proxy:proxypool:1.1.5'
本地需要事先搭建好MongoDB的环境。
可用的代理会存放到MongoDB中,每隔几小时(可配置)会重新抓取一次可用的代理。如果在抓取代理时遇到http status 503的情况,代理池会使用其中的代理来访问数据源再进行抓取。
最新的免费代理资源:http://47.97.7.119:8080/proxypool/proxylist
管理代理资源网站:http://47.97.7.119:8080/proxypool/resourcelist
把代理资源添加到计划任务:http://47.97.7.119:8080/proxypool/planlist
预览效果如下:
另外,还提供了一个接口,可以返回代理池中的Proxy
线上环境地址:http://47.97.7.119:8080/proxypool/proxys/{count}
类型:GET
参数说明:count<=0 count="">数据库里总数量, 也返回全部的代理数据
以上链接在本地运行时,请把具体的IP地址替换成localhost即可
如无法连接Redis,报错: 1、进入ProxyPool-master\ProxyPool-master\proxypool 2、修改db.py中与redis建立连接的所有zadd方法,修改方法如下: zadd只能接收两个参数,所以需要把三个参数改成两个 def add(self, proxy, score=INITIAL_SCORE): if not re.match('\d+\.\d+\.\d
错误信息提示如下 Exception in thread "HiveServer2-Handler-Pool: Thread-67" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringB
环境 vue3 + setup语法糖 一般情况下 子组件使用 defineProps接受父组件传过来的数据 const props = defineProps(['data']) 这个时候的props没有数据代理,不具有响应式 const {proxy} = getCurrentInstance() 从 proxy中也可以拿到props中的值 但是这个值是具有响应式的 故在js中要使用父组件
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -i https://pypi.tuna.tsinghua.edu.cn/simple APScheduler pip install -i https://pypi.tuna.tsinghua.edu.cn/simple werkzeug pip install
ProxyPool:https://github.com/yucaifuyoyo/ProxyPool github上一个开源项目的proxypool添加一些免费代理IP网站 1.https://www.kuaidaili.com/free/inha/1/ # 快代理 2.http://www.xicidaili.com/wt/1 # 西刺免费代理IP 3.http://www.6
本文向大家介绍Python代理IP爬虫的新手使用教程,包括了Python代理IP爬虫的新手使用教程的使用技巧和注意事项,需要的朋友参考一下 前言 Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问题。 本人自己在爬取豆瓣读书的时候,就以为爬取次数过多,直接被封
本文向大家介绍python3 Scrapy爬虫框架ip代理配置的方法,包括了python3 Scrapy爬虫框架ip代理配置的方法的使用技巧和注意事项,需要的朋友参考一下 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。
本文向大家介绍Python3网络爬虫之使用User Agent和代理IP隐藏身份,包括了Python3网络爬虫之使用User Agent和代理IP隐藏身份的使用技巧和注意事项,需要的朋友参考一下 本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 一
本文向大家介绍Python爬虫抓取代理IP并检验可用性的实例,包括了Python爬虫抓取代理IP并检验可用性的实例的使用技巧和注意事项,需要的朋友参考一下 经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!! 至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太
本文向大家介绍利用Python爬取可用的代理IP,包括了利用Python爬取可用的代理IP的使用技巧和注意事项,需要的朋友参考一下 前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来。 脚本如下: 运行成功后,打开E盘下的文件,可以看到如下可用
http-proxy-pool 是一个流量代理工具。 对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此proxy-pool不再将抓取到的代理地址保存至数据库,而调整为定期从免费代理网站下抓取代理地址,使用该地址去测试其可用性(默认配置为访问baidu),测试可用则添加至可用代理地址列表中,如此循环一直抓取新的地址,一直校验。对于已校验可用的代理地址,也定期重新校验是否可用,默认校验间隔为30分钟。