当前位置：首页 > 工具软件 > elasticsearch-analysis-jieba > 使用案例 >

Elasticsearch分析器（Analyzer）

左丘成天

2023-12-01

Elasticsearch分析器（Analyzer）

分析器概念

分词就是将一段文本按照一定的规则切分成以一个一个的关键字的过程

Elasticsearch的分析器（Analyzer）有三个组成部分：

字符过滤器（character filters）

在一段文本分词之前，进行预处理，比如过滤html标签等
分词器（tokenizer）

接收字符流，将其分解为单个分词，记录每个分词的顺序、位置、开始和结束字符偏移量等
分词过滤器（token filters）

接受来自分词器的分词流，并且可以修改分词（例如小写），删除分词（例如删除停用词）或添加分词（例如同义词）

内置分析器（8.6版本）

标准分析器

默认分析器，按Unicode文本分割算法拆分，删除大多数标点符号，小写处理，删除停用词；支持中文，但

只能按字拆分
简单分析器

按照非字母切分，小写处理
空白分析器

遇到空格的时候会进行分词
停止分析器

按照非字母切分，小写处理，删除停用词
关键词分析器

不分词，直接将输入当做输出
模式分析器

按正则表达式分词
语言分析器

对特定语言分词
指纹分析器

专业分析器，它创建一个指纹，可用于重复检测

自定义分析器

必须与Elasticsearch版本一致，解压后放到Elasticsearch的plugins文件夹下，重启Elasticsearch服务即可

elasticsearch-analysis-ik（简称ik，14.8k）

下载地址：

https://github.com/medcl/elasticsearch-analysis-ik/releases

IK提供了两个分词算法：ik_smart和ik_max_word，其中ik_smart为最少切分，ik_max_word为最细粒度划分。

ik_max_word：会将文本做最细粒度的拆分，比如会将"中华人民共和国国歌"拆分为"中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌"，会穷尽各种可能的组合；

ik_smart：会做最粗粒度的拆分，比如会将"中华人民共和国国歌"拆分为"中华人民共和国，国歌"。

POST /_analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国国歌"
}

elasticsearch-analysis-pinyin（简称pinyin，2.6k）

下载地址：

https://github.com/medcl/elasticsearch-analysis-pinyin/releases

elasticsearch-jieba-plugin（简称jieba，471）

下载地址：

https://github.com/sing1ee/elasticsearch-jieba-plugin/tags

类似资料：

相关阅读

Elasticsearch中的默认索引分析器在ElasticSearch设置中更新分析器 ElasticSearch分析的字段为ElasticSearch配置分析 Elasticsearch同义词分析器不起作用

相关文章

主成分分析 PCA 超详细背包DP九讲（算法分析+问题分析+代码分析）边界值分析 MongoDB查询分析 GitLab周期分析

相关问答

无法理解elasticsearch分析器正则表达式 “索引”：elasticsearch中的“未分析”elasticsearch[未能更新映射][找不到MapperParsingException[分析器]如何创建一个自定义的Elasticsearch分析器 Elasticsearch：如何在字段中添加语言分析器？

相关文档

Tendermint 源码分析 Memcached 源码分析 Spark 机器学习算法研究和源码分析 OpenStack Neutron 源码分析 OpenStack HeatClient 源码分析