dungpxoy设计的目的就是为了突破爬虫目标网站的封禁策略的。因为httpclient是根据浏览器标准来实现的一个框架,很多时候默认策略容易被目标网站发现。dungproxy则实现以下方案。
提供代理服务
dungproxy本身提供了一个server,用来收集互联网上海量的代理IP。并通过我们独特的算法对其清洗打分。我们使用历史数据对当前IP可用性推测的原理来动态调整IP探测频率,使用快速降权的策略,使得server维护了一个高度活跃的可用IP池。
提供透明客户端
dungproxy有一个client,用来在最终用户机器上面实现IP资源池。client使得IP可用性的活跃保持在秒级,同时经过我们独立设计的分值计算模型,分值顺序惩罚模型,能够高效的保证IP池的优质IP被调度,切IP始终会切换。
dungproxy对httpclient有较为深度的定制,包括默认ua的织入(同时还提供了一个符合浏览器规范的User-Agent生成器),代理IP池的织入,cookie空间隔离等策略。
dungproxy定位为代理IP池,它可以对接各种IP,然后基于我们设计的smartProxyQueue资源切换模型来根据IP质量调度IP使用频率。IP根据使用效果来竞争代理IP作用权.
dungproxy目前已经在部分团队哪里得到了实践的验证,他使得在海量免费IP资源上面实现稳定的代理服务变成了可能。