我最近开始在nutch上工作,我试图理解它是如何工作的。据我所知,Nutch基本上是用来抓取web的,Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引,或者它是否有其他一些用于索引的库?如果它使用solr/Lucene进行索引,那么为什么有必要像nutch教程所说的那样用nutch配置solr呢?
是默认情况下完成的索引。我是说我运行这个命令开始爬行。这里正在进行索引吗?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
或者索引只在这种情况下发生。(根据教程:如果您已经设置了一个Solr内核,并希望对其进行索引,则需要将-Solr参数添加到crawl命令中,例如)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
看看这里可能会有用。当您运行第一个命令时:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
您正在爬行,这意味着nutch将创建自己的内部数据,这些数据由:
您可以将该数据视为nutch存储爬网数据的某种数据库。这与倒排索引没有任何关系。
在爬网过程之后,可以在Solr实例上索引数据。您可以爬网,然后运行一个命令进行索引,这是您的问题中的第二个命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
否则,可以在crawl命令之后运行第二个命令,专门用于为Solr建立索引,但必须提供crawldb、linkdb和segments的路径:
bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
这类似于这里的solr5.3.15-坚果,但有一些额外的皱纹。首先,作为背景,我尝试了solr 4.9.1和坚果,没有问题。然后移动到solr 6.0.1。集成作为独立系统运行良好,并且后端代码可以解析json等。但是,最终,我们需要安全性,并且不想使用 Kerberos。根据Solr安全文档,基本身份验证和基于规则的身份验证(这是我们想要的)仅在云模式下工作(顺便说一句,如果有人建议让非Kerb
我刚刚开始使用Nutch 1.9和Solr 4.10 在浏览了某些页面后,我发现运行该版本的语法已经更改,并且我必须更新某些XML来配置Nutch和Solr 此版本的包不需要Tomcat来运行。我开始索尔: Java-jar start.jar 并检查localhost:8983/solr/admin,它正在工作。 我在bin/url/seed.txt中植入了一个种子,种子是“simpleweb.
null 当我运行以下命令时,我得到一个错误: 上面,TSolr只是Solr核心的名称,您可能已经猜到了。 我正在下面的Hadoop.log中粘贴错误日志: 已删除TestCrawl文件夹以开始爬网并新建索引 ran:==>注意,我已经将Nutch的轮数更改为“1”。并且,这将成功执行爬网和索引 然后,在第二轮中再次运行相同的命令,以更深地爬网一级:==>,这给我带来了与上面粘贴Hadoop.lo
我刚开始使用Nutch 1.11和Solr 5.3.1。 我想用Nutch抓取数据,然后用Solr索引并准备搜索。 希望通过新的自动模式特性,我可以将自己设置为restful,但是,我得到了以下错误(从日志文件复制): 我记得这个 与url有关,但我仔细检查了我使用的url,我认为它是正确的。 错误消息:
我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作
我们有数以千计的solr索引/集合共享Nutch抓取的页面。 感谢任何想法或帮助:)