问题：

在多个solr索引之间共享爬网nutch数据

段兴为

2023-03-14

我们有数以千计的solr索引/集合共享Nutch抓取的页面。

感谢任何想法或帮助：）

共有1个答案

谯振国

2023-03-14

您将需要编写一个新的索引器插件来做到这一点；查看Nutch的SolrIndexer了解如何编写新的索引器。在该索引器中，您应该执行以下操作：

定义三个或四个Solr服务器实例，每个核心一个。
在索引器的write方法中，检查文档的类型，并使用正确的Solr内核添加文档。没错，您应该在Nutch处有一个字段，可以用来确定将文档发送到哪里。

类似资料：

nutch与solr索引

我最近开始在nutch上工作，我试图理解它是如何工作的。据我所知，Nutch基本上是用来抓取web的，Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时，它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引，或者它是否有其他一些用于索引的库？如果它使用solr/Lucene进行索引，那么为什么有必要像nutch教程所说的那样用nutch配置solr呢？是默认情
使用Solr Nutch对特定数据进行Web爬网

我看到了一些像http://homes.mitula.ph/homes/makati这样的搜索网站，我想知道他们是如何抓取其他网站（如、和）中的数据并将其显示到他们的站点上的。我正在考虑使用Solr索引数据，使用Nutch抓取数据。我是一个新的网页抓取和索引，目前为止，我只能抓取一个网页的内容。 Solr Nutch能做那种爬行吗？怎么做的？
在指令之间共享数据

问题内容：我有一些称为的数据，该数据位于三个孩子的父对象的范围内：在这三个指令之间共享的最佳方法是什么？选项包括：使用隔离的范围传递三遍，从而跨四个范围复制它让子指示继承父范围，并找到，或在把上并注入到这一点的子指示还是有另一种更好的方法？问题答案：您可以创建一个工厂，该工厂可以传递给每个指令或控制器。这样可以确保在任何给定时间只有一个数组实例。编辑：这里唯一的陷阱是确保您在指令作
Nutch 1.11爬网问题

我已经遵循了教程，并使用Cygwin将nutch配置为在Windows 7上运行，我正在使用Solr 5.4.0对数据进行索引但是坚果1.11在执行爬行时遇到了问题。爬网命令 $ bin/crawl -i -D solr.server.url= 错误/异常注入种子网址 /apache-nutch-1.11/bin/坚果注射 /测试爬网/抓取 /urls 注射器：从 2016-01-19 开始
Java：在多个线程之间共享一个变量

背景:我正在并行运行自动化测试。使用pom.xml中的分叉，多个浏览器在相同数量的线程中启动，即1个浏览器是1个线程。中的下面插件创建了与线程（fork）计数相等数量的。所有这些类都同时并行执行。因此，似乎每当我创建或时，每个线程都会创建自己的这些，因此跨多个线程共享变量的概念是不起作用的。我只想让一个线程访问“准备测试数据”函数，并将＜code＞标志我正在按照教程https://www.
Solr索引数据

主要内容：在Apache Solr中的索引,使用Post命令添加文档,使用Solr Web界面添加文档,使用Java Client API添加文档一般来说，索引是系统地排列文档或(其他实体)。索引使用户能够在文档中快速地查找信息。索引集合，解析和存储文档。索引是为了在查找所需文档时提高搜索查询的速度和性能。在Apache Solr中的索引在Apache Solr中，我们可以索引(添加，删除，修改)各种文档格式，如xml，csv，pdf等。可以通过几种方式向Solr索引添加数据。在本章中

在多个solr索引之间共享爬网nutch数据

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档