当前位置: 首页 > 面试题库 >

从ElasticSearch文档中检索分析的令牌

邹俊友
2023-03-14
问题内容

尝试访问我的ElasticSearch文档中的分析/标记化的文本。

我知道您可以使用Analyze API根据您的分析模块来分析任意文本。因此,我可以将文档中的数据复制并粘贴到Analyze
API中,以查看如何对它们进行标记。

但是,这似乎不必要地耗时。有什么方法可以指示ElasticSearch在搜索结果中返回标记化文本?我已经浏览了文档,却没有发现任何东西。


问题答案:

看看另一个答案:elasticsearch-返回字段的标记。不幸的是,它要求使用提供的脚本动态地重新分析字段的内容。
应该可以编写一个插件来公开此功能。这个想法是将两个端点添加到:

  • 允许读了Lucene TermsEnum像Solr的TermsComponent确实,使自动建议太有用了。请注意,它不是每个文档,而是索引中的每个术语都带有术语频率和文档频率(使用许多唯一术语可能很昂贵)
  • 允许读取术语向量(如果启用),如solrTermVectorComponent一样。这是针对每个文档的,但需要存储术语向量(您可以在映射中对其进行配置),并且还允许检索位置和偏移(如果启用)。


 类似资料:
  • 问题内容: 我正在尝试检索过去一年的文档,每个文档都放入1个月宽的存储桶中。我将为每个1个月的存储时段提取文档,然后进一步分析它们(超出我的问题范围)。从描述中看来,“桶聚合”似乎是可行的方法,但是在“桶”响应中,我仅获得每个桶中的文档计数,而不是原始文档本身。我想念什么? GET命令 结果输出 问题答案: 您快到了,您只需要添加一个子聚合即可为每个存储桶检索一些文档:

  • 我用cmd删除了映射 在我的配置文件中,我定义了如下索引:, 并尝试创建一个新的映射,但我得到了错误 {“error”:{“root_cause”:[{“type”:“index_not_found_exception”,“reason”:“no-this index”,“resource.type”:“index_or_alias”,“resource.id”:“logstash_log*”,“

  • 问题内容: 我有一个索引,其中很多纸在同一字段中具有相同的值。在这一领域,我有一个重复数据删除技术。 聚合器将作为计数器来找我。我想要一份文件清单。 我的索引: Doc 1 {domain:’domain1.fr’,name:’name1’,date:‘01 -01-2014’} Doc 2 {domain:’domain1.fr’,name:’name1’,date:‘01 -02-2014’}

  • 问题内容: 我如何从Python的Elasticsearch中获得100000个寄存器?MatchAll查询仅检索10000。 问题答案: 就像已经指出的那样,我将使用Scan API来做到这一点。 您还应该阅读有关Elasticsearch python DSL中的扫描助手的信息,网址为 http://elasticsearch- py.readthedocs.io/en/master/help

  • 是否有一种方法可以使我在从索引中检索时,只获得文档的_source中的数据&而不是任何其他元数据,如_index、_type、_id和_score?

  • 问题内容: 我在Elasticsearch上遇到问题,我不希望对索引项进行分析。但是elasticsearch有一些默认设置,可以在空间上标记它。因此,我的方面查询未返回我想要的结果。 我读到索引类型的属性应该工作。但是问题是我事先不知道我的文档结构。我会在不知道表结构的情况下将随机MySQL数据库索引到elasticsearch。 我如何设置elasticsearch,使其默认情况下会一直使用,