当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

es-ik

ES上使用IK中文分词器
授权协议 MIT
开发语言 Java
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 郤坚诚
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法:

1. 在elasticsearch.yml中设置你的sqlite3词典的位置:

ik_analysis_db_path: /opt/ik/dictionary.db

我提供了默认的词典:https://github.com/zacker330/es-ik-sqlite3-dictionary

2. 安装(目前是1.0.1版本)

./bin/plugin -i ik-analysis -u https://github.com/zacker330/es-ik-plugin-sqlite3-release/raw/master/es-ik-sqlite3-1.0.1.zip

3. 现在可以测试了:

    1. 创建index

curl -X PUT -H "Cache-Control: no-cache" -d '{
    "settings":{
        "index":{
            "number_of_shards":1,
            "number_of_replicas": 1
        }
    }
}' 'http://localhost:9200/songs/'

      2. 创建map:

curl -X PUT -H "Cache-Control: no-cache" -d '{
        "song": {
            "_source": {"enabled": true},
            "_all": {
                "indexAnalyzer": "ik_analysis",
                "searchAnalyzer": "ik_analysis",
                "term_vector": "no",
                "store": "true"
            },
            "properties":{
                "title":{
                    "type": "string",
                    "store": "yes",
                    "indexAnalyzer": "ik_analysis",
                    "searchAnalyzer": "ik_analysis",
                    "include_in_all": "true"
                }
            }

        }
}
    ' 'http://localhost:9200/songs/_mapping/song'

       3.

curl -X POST  -d '林夕为我们作词' 'http://localhost:9200/songs/_analyze?analyzer=ik_analysis'

response:
{"tokens":[{"token":"林夕","start_offset":0,"end_offset":2,"type":"CN_WORD","position":1},{"token":"作词","start_offset":5,"end_offset":7,"type":"CN_WORD","position":2}]}

  • 1.首先得知道ik分词器的地址 GitHub:GitHub - medcl/elasticsearch-analysis-ik 若github访问较慢,可以访问以下网站 mirrors / medcl / elasticsearch-analysis-ik · GitCode 2.手动安装 打开git的命令行 git clone https://github.com/medcl/elasticse

  • IK中文分词器的安装 ES默认是没有IK中文分词器的,我们要将IK中文分词器作为一个插件安装到ES中,安装的步骤也很简单 1.   从GitHub上下载适合自己ES版本的IK中文分词器,地址如下:https://github.com/medcl/elasticsearch-analysis-ik/releases。 2.   在我们的ES的插件目录中(${ES_HOME}/plugins)创建ik

  • 1.下载和es相同版本的ik分词器,elasticsearch-analysis-ik-8.2.0 2.elasticsearch-analysis-ik-8.2.0.zip在es的plugins文件下解析 3.重启es 4.查看分词效果 POST _analyze {   "analyzer": "ik_smart",   "text": "我爱我的钱" } POST _analyze {  

 相关资料
  • IK Expression是一个开源的(OpenSource),可扩展的(Extensible),基于java语言开发的一个超轻量级(Super lightweight)的公式化语言解析执行工具包。 IK Expression V2.0不依赖于任何第三方的java库。它做为一个简单的jar,可以集成于任意的Java应用中。这包括了JavaEE应用(基于应用服务器的), Java桌面应用以及Java

  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 我正在使用入门示例(来自https://www.lwjgl.org/guide{which unchanged works fine}),但将其更改为使用OpenGL ES 3.0(出于与此问题无关的原因)。 我正在使用最新的LWJGL版本3.1.1,选择最小的OpenGL ES作为我的预设(从https://www.lwjgl.org/download)以及使用windows本机。(我正在运行W

  • 我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中,它们属于某些类别(键)。由此,我想创建与存储单词的类别相对应的列。和往常一样,最好用例子来说明: 我有一个数据框: 它创建表: 还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词,可以包括短语,例如本例中的“alloy wheels”(这不一定是字典,我只是觉得这是最好的方法): 根据这个,我想创建一个如下所

  • 本文向大家介绍python中文分词库jieba使用方法详解,包括了python中文分词库jieba使用方法详解的使用技巧和注意事项,需要的朋友参考一下 安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,

  • 介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba