问题：

nutch与solr索引

史骏祥

2023-03-14

我最近开始在nutch上工作，我试图理解它是如何工作的。据我所知，Nutch基本上是用来抓取web的，Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时，它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引，或者它是否有其他一些用于索引的库？如果它使用solr/Lucene进行索引，那么为什么有必要像nutch教程所说的那样用nutch配置solr呢？

是默认情况下完成的索引。我是说我运行这个命令开始爬行。这里正在进行索引吗？

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

或者索引只在这种情况下发生。（根据教程：如果您已经设置了一个Solr内核，并希望对其进行索引，则需要将-Solr参数添加到crawl命令中，例如）

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

共有1个答案

叶琦

2023-03-14

看看这里可能会有用。当您运行第一个命令时：

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

您正在爬行，这意味着nutch将创建自己的内部数据，这些数据由：

爬行b
链接DB
一组段

爬网/爬网b
爬网/linkdb
爬网/段

您可以将该数据视为nutch存储爬网数据的某种数据库。这与倒排索引没有任何关系。

在爬网过程之后，可以在Solr实例上索引数据。您可以爬网，然后运行一个命令进行索引，这是您的问题中的第二个命令：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

否则，可以在crawl命令之后运行第二个命令，专门用于为Solr建立索引，但必须提供crawldb、linkdb和segments的路径：

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*

类似资料：

将nutch 1.11与solr 6.0.1云集成

这类似于这里的solr5.3.15-坚果，但有一些额外的皱纹。首先，作为背景，我尝试了solr 4.9.1和坚果，没有问题。然后移动到solr 6.0.1。集成作为独立系统运行良好，并且后端代码可以解析json等。但是，最终，我们需要安全性，并且不想使用 Kerberos。根据Solr安全文档，基本身份验证和基于规则的身份验证（这是我们想要的）仅在云模式下工作（顺便说一句，如果有人建议让非Kerb
Apache nutch和solr：查询

我刚刚开始使用Nutch 1.9和Solr 4.10 在浏览了某些页面后，我发现运行该版本的语法已经更改，并且我必须更新某些XML来配置Nutch和Solr 此版本的包不需要Tomcat来运行。我开始索尔： Java-jar start.jar 并检查localhost:8983/solr/admin，它正在工作。我在bin/url/seed.txt中植入了一个种子，种子是“simpleweb.
Apache Nutch 1.12与Apache Solr 6.2.1出现错误

null 当我运行以下命令时，我得到一个错误：上面，TSolr只是Solr核心的名称，您可能已经猜到了。我正在下面的Hadoop.log中粘贴错误日志：已删除TestCrawl文件夹以开始爬网并新建索引 ran:==>注意，我已经将Nutch的轮数更改为“1”。并且，这将成功执行爬网和索引然后，在第二轮中再次运行相同的命令，以更深地爬网一级:==>，这给我带来了与上面粘贴Hadoop.lo
Nutch 1.11(1.x)与Solr 5.3.1(5.x)的集成

我刚开始使用Nutch 1.11和Solr 5.3.1。我想用Nutch抓取数据，然后用Solr索引并准备搜索。希望通过新的自动模式特性，我可以将自己设置为restful,但是，我得到了以下错误（从日志文件复制）：我记得这个与url有关，但我仔细检查了我使用的url，我认为它是正确的。错误消息：
弹性搜索与Nutch集成

我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而，我无法让他们的组合工作。基本上，我在Nutch上执行了以下命令：现在，我想将获取的数据索引到ES中，我按照指南进行了操作
在多个solr索引之间共享爬网nutch数据

我们有数以千计的solr索引/集合共享Nutch抓取的页面。感谢任何想法或帮助：）

nutch与solr索引

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档