我试图使用RESTendpoint公开nutch,但在索引器阶段遇到了一个问题。我正在使用elasticsearch索引编写器将文档索引到ES。我使用了$nutch_home/runtime/deploy/bin/nutch startserver命令。在索引时引发未知异常。
错误indexer.indexingjob:indexer:java.io.ioException:作业失败!在org.apache.hadoop.mapred.jobclient.runjob(jobclient.java:865),在org.apache.nutch.indexer.indexingjob.index(indexingjob.java:145),在org.apache.nutch.indexer.indexingjob.run(indexingjob.java:228),在org.apache.hadoop.util.toolrunner.run(toolrunner.java:70),在org.apache.nutch.indexer.indexingjob.java:237),在
失败,退出代码为255。
如有任何帮助,不胜感激。
PS:在使用堆栈跟踪进行调试后,我认为这个问题是由于guava版本中的不匹配造成的。我尝试改变插件的build.xml(parse-tika和parsefilter-naivebayes),但没有成功。
我已经找到了解决这个问题的办法。这是由于番石榴依赖的版本兼容性。Hadoop使用guava-11.0.2.jar作为依赖项。但是nutch中的弹性索引器插件需要18.0版的番石榴。这就是为什么它在尝试在分布式Hadoop中运行时抛出异常的原因。因此,我们只需要在hadoop libs中更新guava版本到18.0(可以在$hadoop_home/share/hadoop/common/libs/找到)。
问题内容: 我试图使用REST端点公开问题,并在索引器阶段遇到问题。我正在使用Elasticsearch索引编写器将文档索引到ES。我已经使用了$ NUTCH_HOME / runtime / deploy / bin / nutch startserver命令。编制索引时会引发未知异常。 错误:com.google.common.util.concurrent.MoreExecutors.dir
问题内容: 我一直在按照http://wiki.apache.org/nutch/Nutch2Tutorial上的说明进行操作,以查看是否可以通过ElasticSearch进行安装。我已经成功完成了爬网,没有任何实际问题,但是当我尝试将结果加载到elasticsearch中时,我遇到了麻烦。 我发出命令: 它等待了很长时间,然后返回一个错误:线程“ main” java.lang.RuntimeE
我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作
我有一个用于elastic search的qbox实例(关于qbox elasticsearch的更多详细信息可以通过自定义tcp端口在http://qbox.io/找到)。当我试图通过nutch访问实例进行索引时,我得到以下错误:
我正在使用edge ngram标记器来提供部分匹配。我的文件看起来像 我的映射如下 以下查询给了我3个正确的文档(,,) 但是当我输入时,它会给我0个文档 我希望这将返回1个文档,但出于某种原因,它似乎没有索引令牌中的数字。让我知道,如果我错过了什么东西在这里。
我在nutch elastic Indexera上运行测试运行。我想添加一些自定义字段和自定义类型名(而不是“doc”),它们可以作为索引作业的参数。我知道是负责设置字段名和元数据的类,但不知道nutch在哪里创建实例并设置值。或者还有别的办法。请帮忙