当前位置: 首页 > 知识库问答 >
问题:

在nutch弹性索引器中添加自定义字段和类型

步浩壤
2023-03-14

我在nutch elastic Indexera上运行测试运行。我想添加一些自定义字段和自定义类型名(而不是“doc”),它们可以作为索引作业的参数。我知道NutchDocument是负责设置字段名和元数据的类,但不知道nutch在哪里创建实例并设置值。或者还有别的办法。请帮忙

共有1个答案

岑毅庵
2023-03-14

您所需要的(将新字段添加到ES索引中)是编写一个自定义索引筛选器(假设您要添加的字段的值已经由某个解析筛选器从内容中提取出来,否则您将需要解析筛选器和索引筛选器)。

至于修改type字段,您需要将type字段提取/添加到nutchdocument类中,请查看https://github.com/apache/nutch/blob/master/src/plugin/indexer-ellastic/src/java/org/apache/nutch/indexwriter/ellastic/ellasticindexwriter.java#L169-L171。“doc”是无法提供的默认类型。因此,在自定义索引筛选器中,您将添加逻辑来动态设置type字段,这将由ElasticIndexWriter索引阶段使用。

 类似资料:
  • 问题内容: 我一直在按照http://wiki.apache.org/nutch/Nutch2Tutorial上的说明进行操作,以查看是否可以通过ElasticSearch进行安装。我已经成功完成了爬网,没有任何实际问题,但是当我尝试将结果加载到elasticsearch中时,我遇到了麻烦。 我发出命令: 它等待了很长时间,然后返回一个错误:线程“ main” java.lang.RuntimeE

  • 我正在使用cygwin和solr 4.8.0的nutch 1.9。我可以使用下面的代码将爬网数据索引到solr中。 bin/crawl URL/crawlresult/http://localhost:8983/solr/1 但我想在进行索引时添加一些附加字段,如indexed_by、crawled_by、crawl_name等。 我需要这方面的帮助。 提前道谢。

  • 我正在使用wordpress 4.1与ACF v4。我有一个添加了自定义字段的自定义帖子类型,每次添加新类别时都需要添加新的自定义字段。如果我自动添加类别“轿车”,我必须添加自定义字段“轿车”。我可以使用插件函数执行此操作吗?或者我必须用代码,在数据库中插入来做到这一点?提前致谢!!

  • 弹性搜索团队添加了一个属性,用于避免索引为空时出错,并且弹性无论如何都会尝试对空结果进行排序。 我如何在spring数据弹性搜索请求中添加这个“ignore\u unmapped”:true?我在文档中没有找到任何示例。 提前谢谢。

  • 这个问题是我以前这个问题的延续。我有一些文本,我想对数字和文本执行搜索。 我去了ES中所有现有的分析器,但似乎没有什么能满足我的要求。我试图创建我的下面自定义分析器,但它不工作,以及。 请建议,我如何才能建立我的自定义分析器,以满足我的要求。

  • 我试着遵循这里列出的Nutch+ES指南 https://gist.github.com/xrstf/b48a970098a8e76943b9 https://qbox.io/blog/scring-the-web-wit-nutch-for-elasticsearch 然而,我无法让他们的组合工作。基本上,我在Nutch上执行了以下命令: 现在,我想将获取的数据索引到ES中,我按照指南进行了操作