当前位置: 首页 > 知识库问答 >
问题:

最佳爬虫确定与技术构建?

邵昆琦
2023-03-14

BuiltWith.com和类似的服务提供(收费)使用SalesForce或NationBuilder等特定技术构建的域列表。有一些我感兴趣的技术builtwith没有扫描,可能是因为它们的市场份额太小。

如果我们知道某个网站使用了某种技术的页面签名,那么识别尽可能多的这些网站的最佳方法是什么?我们希望有1000个,我们对那些在前1000万网站的流量感兴趣。(我们不认为最大的网站使用这种技术。)

我有一个开源网络爬虫列表-http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/-但是我的用例似乎与许多常规的爬虫标准不同,因为我们只是想用这个签名保存域的“点击量”。所以我们不需要快速,但我们确实需要检查网站的所有页面,直到找到一个击中,只使用负责任的爬行实践等。什么是最好的?

共有1个答案

姬泰
2023-03-14

您确实可以调整一个开放源码的网络爬虫。你发布的链接提到了大量的资源,但一旦你删除了那些没有维护的和那些没有分发的,你就不会剩下很多了。根据定义,您不知道哪些站点包含您正在寻找的签名,所以您必须获得前10M站点的列表并爬取它们,这是一个实质性的操作,但这肯定可以使用Apache Nutch或StormCrawler(您发布的链接中没有列出)等工具实现[免责声明我是Nutch的promise者和SC的作者]。

另一种更便宜、更快的方法是处理CommonCrawl数据集。他们每月提供大量的网络爬行数据,并为您做网络爬行的工作--包括礼貌等等...当然,他们的数据集不会有完美的覆盖范围,但如果您自己运行爬行,这已经是最好的了。它也是一种很好的方法来检查您的初始假设和用于在非常大的数据上检测签名的代码。我通常建议在开始Web大小的爬网之前处理CC。CC网站包含关于库和处理它的代码的详细信息。

大多数人所做的,包括我自己在为客户处理CC时,都是用MapReduce实现处理并在AWS EMR上运行。当然,成本取决于处理的复杂性,但硬件预算通常在数百美元。

希望这能有所帮助

 类似资料:
  • 本文向大家介绍nodeJs爬虫的技术点总结,包括了nodeJs爬虫的技术点总结的使用技巧和注意事项,需要的朋友参考一下 背景 最近打算把之前看过的nodeJs相关的内容在复习下,顺便写几个爬虫来打发无聊,在爬的过程中发现一些问题,记录下以便备忘。 依赖 用到的是在网上烂大街的cheerio库来处理爬取的内容,使用superagent处理请求,log4js来记录日志。 日志配置 话不多说,直接上代码

  • 有的时候,当我们的爬虫程序完成了,并且在本地测试也没有问题,爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候,我们很有可能是遇到了网站的反爬虫拦截。 我们知道,网站一方面想要爬虫爬取网站,比如让搜索引擎爬虫去爬取网站的内容,来增加网站的搜索排名。另一方面,由于网站的服务器资源有限,过多的非真实的用户对网站的大量访问,会增加运营成本和服务器负担。 因此,有些网站会设置一些反爬虫的措施。我

  • python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。

  • 本文向大家介绍零基础写python爬虫之爬虫的定义及URL构成,包括了零基础写python爬虫之爬虫的定义及URL构成的使用技巧和注意事项,需要的朋友参考一下 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容

  • 这一章将会介绍使用一些新的模块(optparse,spider)去完成一个爬虫的web应用。爬虫其实就是一个枚举出一个网站上面的所有链接,以帮助你创建一个网站地图的web应用程序。而使用Python则可以很快的帮助你开发出一个爬虫脚本. 你可以创建一个爬虫脚本通过href标签对请求的响应内容进行解析,并且可以在解析的同时创建一个新的请求,你还可以直接调用spider模块来实现,这样就不需要自己去写

  • 大话爬虫的实践技巧 图1-意淫爬虫与反爬虫间的对决 数据的重要性 如今已然是大数据时代,数据正在驱动着业务开发,驱动着运营手段,有了数据的支撑可以对用户进行用户画像,个性化定制,数据可以指明方案设计和决策优化方向,所以互联网产品的开发都是离不开对数据的收集和分析,数据收集的一种是方式是通过上报API进行自身平台用户交互情况的捕获,还有一种手段是通过开发爬虫程序,爬取竞品平台的数据,后面就重点说下爬