当前位置: 首页 > 知识库问答 >
问题:

使用Solr Nutch对特定数据进行Web爬网

焦阎宝
2023-03-14

我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如priceimagedescription)中的数据并将其显示到他们的站点上的。

我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。

Solr Nutch能做那种爬行吗?怎么做的?

共有1个答案

羊时铭
2023-03-14

根本就不存在“solr nutch”这回事。它们是单独的项目。

您可以在Nutch中编写HTMLParseFilters并实现提取逻辑,然后配置索引过滤器,以便将数据发送到Solr。

顺便说一句,您可能会发现StormCrawler更易于使用和扩展。它有一个ParseFilter实现,它采用XPath表达式从网页中提取信息。

当然,您可以在Nutch中的HTMLParseFilter中执行同样的操作,但这需要编写一些代码并将其放入自定义插件中。

 类似资料:
  • 我有一个假设 我的目的是以循环的方式基于来订购它。 输入: SortedList:

  • 注解 本教程所使用的样例站Google Directory已经 被Google关闭 了。不过教程中的概念任然适用。 如果您打算使用一个新的网站来更新本教程,您的贡献是再欢迎不过了。 详细信息请参考 Contributing to Scrapy 。 介绍 本文档介绍了如何适用 Firebug (一个Firefox的插件)来使得爬取更为简单,有趣。 更多有意思的Firefox插件请参考 对爬取有帮助的

  • 6.2. 使用DataBinder进行数据绑定 DataBinder是构建于BeanWrapper之上。[3]。 [3] 更多相关信息请查看the beans章节

  • 问题内容: 我试图从HTML中提取许多页面的数据(数字)。每个页面的数据都不同。当我尝试使用soup.select(’span [class =“ pull- right”]’)时,它应该给我编号,但只有标签出现。我相信这是因为网页中使用了Javascript。180,476是我要在许多页面上使用的特定HTML处的数据位置: 我的代码(这在很多页面上都是循环的): 输出: 范例网址:https:/

  • 问题内容: 我有一个浮点数组和一个字符串数组。每个浮点值都与特定的String匹配。我想使用以下方式对保留自己的字符串的float数组进行排序: 这是代码: 如何排序并保留自己的字符串? 非常感谢。 问题答案:

  • 给定任何熊猫数据帧。我想选择列A, B和F: Z 我已经尝试过了但是没有成功。请告诉我怎么做。