当前位置: 首页 > 知识库问答 >
问题:

在多个solr索引之间共享爬网nutch数据

段兴为
2023-03-14

我们有数以千计的solr索引/集合共享Nutch抓取的页面。

感谢任何想法或帮助:)

共有1个答案

谯振国
2023-03-14

您将需要编写一个新的索引器插件来做到这一点;查看Nutch的SolrIndexer了解如何编写新的索引器。在该索引器中,您应该执行以下操作:

  1. 定义三个或四个Solr服务器实例,每个核心一个。
  2. 在索引器的write方法中,检查文档的类型,并使用正确的Solr内核添加文档。没错,您应该在Nutch处有一个字段,可以用来确定将文档发送到哪里。
 类似资料:
  • 我最近开始在nutch上工作,我试图理解它是如何工作的。据我所知,Nutch基本上是用来抓取web的,Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引,或者它是否有其他一些用于索引的库?如果它使用solr/Lucene进行索引,那么为什么有必要像nutch教程所说的那样用nutch配置solr呢? 是默认情

  • 我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站,我想知道他们是如何抓取其他网站(如、和)中的数据并将其显示到他们的站点上的。 我正在考虑使用Solr索引数据,使用Nutch抓取数据。我是一个新的网页抓取和索引,目前为止,我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗?怎么做的?

  • 问题内容: 我有一些称为的数据,该数据位于三个孩子的父对象的范围内: 在这三个指令之间共享的最佳方法是什么?选项包括: 使用隔离的范围传递三遍,从而跨四个范围复制它 让子指示继承父范围,并找到,或在 把上并注入到这一点的子指示 还是有另一种更好的方法? 问题答案: 您可以创建一个工厂,该工厂可以传递给每个指令或控制器。这样可以确保在任何给定时间只有一个数组实例。编辑:这里唯一的陷阱是确保您在指令作

  • 我已经遵循了教程,并使用Cygwin将nutch配置为在Windows 7上运行,我正在使用Solr 5.4.0对数据进行索引 但是坚果1.11在执行爬行时遇到了问题。 爬网命令 $ bin/crawl -i -D solr.server.url= 错误/异常 注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器:从 2016-01-19 开始

  • 背景:我正在并行运行自动化测试。使用pom.xml中的分叉,多个浏览器在相同数量的线程中启动,即1个浏览器是1个线程。 中的下面插件创建了与线程(fork)计数相等数量的。 所有这些类都同时并行执行。因此,似乎每当我创建或时,每个线程都会创建自己的这些,因此跨多个线程共享变量的概念是不起作用的。 我只想让一个线程访问“准备测试数据”函数,并将<code>标志 我正在按照教程https://www.

  • 主要内容:在Apache Solr中的索引,使用Post命令添加文档,使用Solr Web界面添加文档,使用Java Client API添加文档一般来说,索引是系统地排列文档或(其他实体)。索引使用户能够在文档中快速地查找信息。 索引集合,解析和存储文档。 索引是为了在查找所需文档时提高搜索查询的速度和性能。 在Apache Solr中的索引 在Apache Solr中,我们可以索引(添加,删除,修改)各种文档格式,如xml,csv,pdf等。可以通过几种方式向Solr索引添加数据。 在本章中