问题：

用Nutch REST api实现Nutch弹性分度器中的未知问题

公西修文

2023-03-14

我试图使用RESTendpoint公开nutch，但在索引器阶段遇到了一个问题。我正在使用elasticsearch索引编写器将文档索引到ES。我使用了$nutch_home/runtime/deploy/bin/nutch startserver命令。在索引时引发未知异常。

错误indexer.indexingjob：indexer：java.io.ioException：作业失败！在org.apache.hadoop.mapred.jobclient.runjob(jobclient.java:865)，在org.apache.nutch.indexer.indexingjob.index(indexingjob.java:145)，在org.apache.nutch.indexer.indexingjob.run(indexingjob.java:228)，在org.apache.hadoop.util.toolrunner.run(toolrunner.java:70)，在org.apache.nutch.indexer.indexingjob.java:237)，在

失败，退出代码为255。

如有任何帮助，不胜感激。

PS：在使用堆栈跟踪进行调试后，我认为这个问题是由于guava版本中的不匹配造成的。我尝试改变插件的build.xml（parse-tika和parsefilter-naivebayes)，但没有成功。

共有1个答案

唐睿

2023-03-14

我已经找到了解决这个问题的办法。这是由于番石榴依赖的版本兼容性。Hadoop使用guava-11.0.2.jar作为依赖项。但是nutch中的弹性索引器插件需要18.0版的番石榴。这就是为什么它在尝试在分布式Hadoop中运行时抛出异常的原因。因此，我们只需要在hadoop libs中更新guava版本到18.0（可以在$hadoop_home/share/hadoop/common/libs/找到）。

类似资料：

使用Nuch REST API的Nutch弹性索引器中的未知问题

问题内容：我试图使用REST端点公开问题，并在索引器阶段遇到问题。我正在使用Elasticsearch索引编写器将文档索引到ES。我已经使用了$ NUTCH_HOME / runtime / deploy / bin / nutch startserver命令。编制索引时会引发未知异常。错误：com.google.common.util.concurrent.MoreExecutors.dir
bin / nutch弹性索引<$ cluser> -all的OutOfMemoryError（Nutch 2.1）

问题内容：我一直在按照http://wiki.apache.org/nutch/Nutch2Tutorial上的说明进行操作，以查看是否可以通过ElasticSearch进行安装。我已经成功完成了爬网，没有任何实际问题，但是当我尝试将结果加载到elasticsearch中时，我遇到了麻烦。我发出命令：它等待了很长时间，然后返回一个错误：线程“ main” java.lang.RuntimeE
弹性搜索与Nutch集成

我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而，我无法让他们的组合工作。基本上，我在Nutch上执行了以下命令：现在，我想将获取的数据索引到ES中，我按照指南进行了操作
qbox上的弹性搜索不能通过nutch访问

我有一个用于elastic search的qbox实例（关于qbox elasticsearch的更多详细信息可以通过自定义tcp端口在http://qbox.io/找到）。当我试图通过nutch访问实例进行索引时，我得到以下错误：
弹性搜索中的edge_ngram标记器问题

我正在使用edge ngram标记器来提供部分匹配。我的文件看起来像我的映射如下以下查询给了我3个正确的文档（，，）但是当我输入时，它会给我0个文档我希望这将返回1个文档，但出于某种原因，它似乎没有索引令牌中的数字。让我知道，如果我错过了什么东西在这里。
在nutch弹性索引器中添加自定义字段和类型

我在nutch elastic Indexera上运行测试运行。我想添加一些自定义字段和自定义类型名（而不是“doc”），它们可以作为索引作业的参数。我知道是负责设置字段名和元数据的类，但不知道nutch在哪里创建实例并设置值。或者还有别的办法。请帮忙

用Nutch REST api实现Nutch弹性分度器中的未知问题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档