我一直在按照http://wiki.apache.org/nutch/Nutch2Tutorial上的说明进行操作,以查看是否可以通过ElasticSearch进行安装。我已经成功完成了爬网,没有任何实际问题,但是当我尝试将结果加载到elasticsearch中时,我遇到了麻烦。
我发出命令:
bin/nutch elasticindex <$cluser> -all
它等待了很长时间,然后返回一个错误:线程“ main”
java.lang.RuntimeException中的异常:作业失败:名称=弹性索引[ocpnutch],jobid = job_local_0001
如果我在以下位置查看日志:
~/apache-nutch-2.1/runtime/local/logs/hadoop.log
我看到这样的几个错误:
Netty层捕获到异常[[id:0x569764bd,/192.168.17.39:52554 => /192.168.17.60:9300]]
java.lang.OutOfMemoryError:Java堆空间
elasticsearch的日志中没有任何内容。
我尝试将以下内容更改为:elastic.max.bulk.docs和elastic.max.bulk.size更改为小尺寸,并分配大量GB进行小插曲,但无济于事。
jvm是:Java(TM)SE运行时环境(内部版本1.7.0_21-b11)
有谁知道我在做什么错-哪些其他诊断信息将有助于解决此问题?
我也有完全一样的问题。我使用elasticsearch 0.90.2。我找到了一个解决方案:使用elasticsearch 0.19.4可以正常工作!
我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作
我最近开始在nutch上工作,我试图理解它是如何工作的。据我所知,Nutch基本上是用来抓取web的,Solr/Lucene是用来索引和搜索的。但是当我阅读nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene来进行索引,或者它是否有其他一些用于索引的库?如果它使用solr/Lucene进行索引,那么为什么有必要像nutch教程所说的那样用nutch配置solr呢? 是默认情
问题内容: 我试图使用REST端点公开问题,并在索引器阶段遇到问题。我正在使用Elasticsearch索引编写器将文档索引到ES。我已经使用了$ NUTCH_HOME / runtime / deploy / bin / nutch startserver命令。编制索引时会引发未知异常。 错误:com.google.common.util.concurrent.MoreExecutors.dir
我有一个用于elastic search的qbox实例(关于qbox elasticsearch的更多详细信息可以通过自定义tcp端口在http://qbox.io/找到)。当我试图通过nutch访问实例进行索引时,我得到以下错误:
我刚加入弹性搜索公司。而不知道如何在JSON请求中对索引和an类型发出正确的请求?(所以我不想像localhost:9200/myindex/mytype/_search那样在URL中使用索引和类型,而是向localhost:9200/_search发出JSON请求) 我试过这样的东西。但我得到的结果是'AAA'索引而不是'BBB'索引。如何只从bbb索引得到结果或者根本没有结果?
我在nutch elastic Indexera上运行测试运行。我想添加一些自定义字段和自定义类型名(而不是“doc”),它们可以作为索引作业的参数。我知道是负责设置字段名和元数据的类,但不知道nutch在哪里创建实例并设置值。或者还有别的办法。请帮忙