如何在Elasticsearch中的分析/标记化字段上排序？

冯宏放

2023-03-14

问题内容：

我们正在title索引中存储一个字段，并希望将该字段用于两个目的：

我们正在使用ngram过滤器进行分析，因此我们可以提供自动完成和即时结果
我们希望能够在title字段上使用ASC排序而不是得分来列出结果。

索引/过滤器/分析器的定义如下：

array(
    'number_of_shards' => $this->shards,
    'number_of_replicas' => $this->replicas,
    'analysis' => array(
        'filter' => array(
            'nGram_filter' => array(
                'type' => 'nGram',
                'min_gram' => 2,
                'max_gram' => 20,
                'token_chars' => array('letter','digit','punctuation','symbol')
            )
        ),

        'analyzer' => array(
            'index_analyzer' => array(
                'type' => 'custom',
                'tokenizer' =>'whitespace',
                'char_filter' => 'html_strip',
                'filter' => array('lowercase','asciifolding','nGram_filter')
            ),
            'search_analyzer' => array(
                'type' => 'custom',
                'tokenizer' =>'whitespace',
                'char_filter' => 'html_strip',
                'filter' => array('lowercase','asciifolding')
            )
        )
    )
),

当我们在title字段上排序时，我们遇到的问题是不可预测的结果。经过一番搜索后，我们sort在ElasticSearch手册页的末尾找到了这个…（http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-
request-sort.html#
_memory_considerations

）

对于基于字符串的类型，不应分析/标记排序的字段。

我们如何才能分析该字段并在以后对其进行排序？
我们是否需要使用一次存储两次来存储字段not_analyzed以进行排序？由于该字段_source还title以其原始状态存储值，因此不能将其用于排序吗？

问题答案：

您可以在Elasticsearch中使用多字段类型的内置概念。

multi_field类型允许映射相同值的多个core_type。例如，当要映射一个字符串类型时，一次分析时一次，而not_analyzed一次，这可能非常方便。

在《
Elasticsearch参考》中，请查看有关如何设置所需内容的《字符串排序和多字段》指南。

请注意，Elasticsearch 0.90.X和1.X之间的多字段映射配置已更改。根据您的版本使用适当的以下指南：

0.90多字段类型
1.X多字段类型

如何在Elasticsearch中的分析/标记化字段上排序？

相关阅读

相关文章

相关问答

相关工具

相关文档