当前位置: 首页 > 知识库问答 >
问题:

用Nutch REST api实现Nutch弹性分度器中的未知问题

公西修文
2023-03-14

我试图使用RESTendpoint公开nutch,但在索引器阶段遇到了一个问题。我正在使用elasticsearch索引编写器将文档索引到ES。我使用了$nutch_home/runtime/deploy/bin/nutch startserver命令。在索引时引发未知异常。

错误indexer.indexingjob:indexer:java.io.ioException:作业失败!在org.apache.hadoop.mapred.jobclient.runjob(jobclient.java:865),在org.apache.nutch.indexer.indexingjob.index(indexingjob.java:145),在org.apache.nutch.indexer.indexingjob.run(indexingjob.java:228),在org.apache.hadoop.util.toolrunner.run(toolrunner.java:70),在org.apache.nutch.indexer.indexingjob.java:237),在

失败,退出代码为255。

如有任何帮助,不胜感激。

PS:在使用堆栈跟踪进行调试后,我认为这个问题是由于guava版本中的不匹配造成的。我尝试改变插件的build.xml(parse-tika和parsefilter-naivebayes),但没有成功。

共有1个答案

唐睿
2023-03-14

我已经找到了解决这个问题的办法。这是由于番石榴依赖的版本兼容性。Hadoop使用guava-11.0.2.jar作为依赖项。但是nutch中的弹性索引器插件需要18.0版的番石榴。这就是为什么它在尝试在分布式Hadoop中运行时抛出异常的原因。因此,我们只需要在hadoop libs中更新guava版本到18.0(可以在$hadoop_home/share/hadoop/common/libs/找到)。

 类似资料:
  • 问题内容: 我试图使用REST端点公开问题,并在索引器阶段遇到问题。我正在使用Elasticsearch索引编写器将文档索引到ES。我已经使用了$ NUTCH_HOME / runtime / deploy / bin / nutch startserver命令。编制索引时会引发未知异常。 错误:com.google.common.util.concurrent.MoreExecutors.dir

  • 问题内容: 我一直在按照http://wiki.apache.org/nutch/Nutch2Tutorial上的说明进行操作,以查看是否可以通过ElasticSearch进行安装。我已经成功完成了爬网,没有任何实际问题,但是当我尝试将结果加载到elasticsearch中时,我遇到了麻烦。 我发出命令: 它等待了很长时间,然后返回一个错误:线程“ main” java.lang.RuntimeE

  • 我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作

  • 我有一个用于elastic search的qbox实例(关于qbox elasticsearch的更多详细信息可以通过自定义tcp端口在http://qbox.io/找到)。当我试图通过nutch访问实例进行索引时,我得到以下错误:

  • 我正在使用edge ngram标记器来提供部分匹配。我的文件看起来像 我的映射如下 以下查询给了我3个正确的文档(,,) 但是当我输入时,它会给我0个文档 我希望这将返回1个文档,但出于某种原因,它似乎没有索引令牌中的数字。让我知道,如果我错过了什么东西在这里。

  • 当我尝试发送一个GET请求到我的Spring Boot应用程序时,我有这个错误,我不知道我错过了什么! 我有了这个数据库,并在Eclipse中创建了JPA实体和关系,相应地为Spring Boot项目安装了STS(Spring Tool Suite)。 portata.java Ristorante.java Tipocucina.java 我错过了什么???