当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

elasticsearch-analysis-jieba

授权协议 Apache
开发语言 Java
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 龙承德
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

结巴分词插件(for elasticsearch),目前支持0.90.*以上版本

----------------------------------------------------
| Jieba Chinese Analysis Plugin | ElasticSearch    |
----------------------------------------------------
| 0.0.1-SNAPSHOT (master)       | 0.90.*           |
----------------------------------------------------

支持两种分词模式(seg_mode):

  1. index 索引模式,搜索引擎建立索引阶段使用该模式
  2. search 搜索模式,搜索时采用该种模式分词

使用说明

创建mapping

#!/bin/bash curl -XDELETE '0:9200/test/';echo curl -XPUT '0:9200/test/' -d ' {  "index" : {  "number_of_shards": 1,  "number_of_replicas": 0,  "analysis" : {  "analyzer" : {  "jieba_search" : {  "type" : "jieba",  "seg_mode" : "search",  "stop" : true  },  "jieba_index" : {  "type" : "jieba",  "seg_mode" : "index",  "stop" : true  }  }  }  } }';echo

test

# index mode curl '0:9200/test/_analyze?analyzer=jieba_index' -d '中华人民共和国';echo

结果:

{ "tokens": [ { "token": "中华", "start_offset": 0, "end_offset": 2, "type": "word", "position": 1 }, { "token": "华人", "start_offset": 1, "end_offset": 3, "type": "word", "position": 2 }, { "token": "人民", "start_offset": 2, "end_offset": 4, "type": "word", "position": 3 }, { "token": "共和", "start_offset": 4, "end_offset": 6, "type": "word", "position": 4 }, { "token": "共和国", "start_offset": 4, "end_offset": 7, "type": "word", "position": 5 }, { "token": "中华人民共和国", "start_offset": 0, "end_offset": 7, "type": "word", "position": 6 } ] }
# search mode curl '0:9200/test/_analyze?analyzer=jieba_search' -d '中华人民共和国';echo

结果:

{ "tokens": [ { "token": "中华人民共和国", "start_offset": 0, "end_offset": 7, "type": "word", "position": 1 } ] }
  • 关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发。支持Elastic Search 版本<=2.3.5。 结巴分词分析器 结巴分词插件提供3个分析器:jieba_index、jieba_search和jieba_other。 jieba_index: 用于索引分词

  • ElasticSearch-7.4.2集群安装指南 备注: 1- 安装ElasticSearch不建议使用root账号,下文均按照账号为duser来介绍; 2- 该版本配置了账号密码; 1、下载编译好的ES安装包 本安装包,包括已经编译好的:ik / pinyin / jieba插件; 别的不同版本的结巴插件,可以访问该链接 上述链接下载的jieba安装包需要编译,编译过程参考: Elastics

  • elasticsearch7.5.1集群安装elasticsearch-jieba-plugin 7.4.2 和analysis-kuromoji 日语分词器 安装插件需要在集群的其中一个节点安装后重启es程序,没有问题后拷贝到其他节点重启后生效 1.elasticsearch-jieba需要使用gradle进行编译 # 安装gradle 下载gradle的二进制文件 wget https:

  • elasticsearch-jieba-plugin jieba analysis plugin for elasticsearch: 7.7.0, 7.4.2, 7.3.0, 7.0.0, 6.4.0, 6.0.0, 5.4.0, 5.3.0, 5.2.2, 5.2.1, 5.2.0, 5.1.2, 5.1.1 特点 支持动态添加字典,不重启ES。 简单的修改,即可适配不同版本的ES 支持动态添

  • Elasticsearch分析器(Analyzer) 分析器概念 分词就是将一段文本按照一定的规则切分成以一个一个的关键字的过程 Elasticsearch的分析器(Analyzer)有三个组成部分: 字符过滤器(character filters) 在一段文本分词之前,进行预处理,比如过滤html标签等 分词器(tokenizer) 接收字符流,将其分解为单个分词,记录每个分词的顺序、位置、开始

  • 安装包链接:ES7.13.2.zip-其它文档类资源-CSDN下载 0- 系统配置 说明 在进行系统配置更改时,请统一使用root账户操作,在启动elasticsearch进程请统一使用duser账户。 0x00 基础环境 Tips: 基础环境请使用 root 账户! Java环境 主机模式需要java 1.8环境,可先检查有无java环境,如果满足条件则进行下一步,否则请先安装java。 按照如

  • Docker 部署 elasticsearch + kibana + 分词器 考虑到版本不能过低/过高,且需要搭配使用,所以采用 7.7.0 版本,若采用别的版本应注意各处版本号细节。 相关官方链接: es 7.7 文档 docker 部署 es 7.7 文档 docker 部署 kibana 7.7 文档 elasticsearch jieba elasticsearch_ik 自说自话 好像

  • HEAD插件安装 官方地址 https://github.com/mobz/elasticsearch-head 2.x.x 版本: bin/plugin install mobz/elasticsearch-head 5.x.x、6.x.x、7.x.x版本: git clone git://github.com/mobz/elasticsearch-head.git   cd elasticse

  • 【实例简介】 结巴分词,jieba分词,统计分词出现的频率,按频率统计分词出现的频率。分词器功能,建议参考 elasticsearch的分词器,此分词器为入门级的分词拆分和分词频率统计 【实例截图】 【核心代码】 TEST └── TEST ├── bin │   ├── date │   │   ├── Date.class │   │   └── DateStringCompare.class

  • 信息安全问题不贴代码 1.jieba插件https://github.com/hongfuli/elasticsearch-analysis-jieba 2.ik插件https://github.com/medcl/elasticsearch-analysis-ik  参考ik分词中的热加载功能修改jieba分词插件的源码 步骤: 1.编写线程类,ik中是读服务器上的文件,可修改为读取本地文件 2

  • 到github下载插件 https://github.com/huaban/elasticsearch-analysis-jieba 2.将下载得到的插件,如elasticsearch-analysis-jieba-2.3.3-bin.zip直接解压缩到 Es的plugins文件夹,文件夹改名为jieba,重启ES服务 在浏览器输入以下地址进行测试(例如先建好一个test索引,如果是国产浏览器需要

 相关资料
  • 首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_searc

  • 语义分析是关于分析观众的一般意见。 这可能是对一则新闻,电影或任何有关正在讨论的事项的推文的反应。 通常,此类反应来自社交媒体,并通过NLP分组到文件中进行分析。 我们将首先简单地定义正面和负面的单词。 然后采用一种方法来分析这些单词作为句子的一部分使用这些单词。 我们使用nltk中的sentiment_analyzer模块。 我们首先用一个单词进行分析,然后用配对单词进行分析,也称为双字组。 最

  • 摊销分析涉及估计程序中的操作序列的运行时间,而不考虑输入值中的数据分布的跨度。 一个简单的例子是查找排序列表中的值比未排序列表中的值更快。 如果列表已经排序,则分布数据的方式无关紧要。 但是,当然列表的长度会产生影响,因为它决定了算法为获得最终结果而必须经过的步骤数。 因此,我们看到,如果获得排序列表的单个步骤的初始成本很高,则查找元素的后续步骤的成本变得相当低。 因此,摊销分析有助于我们找到一系

  • 算法分析 算法的效率可以在实现之前和实现之后的两个不同阶段进行分析。 他们是以下 - A Priori Analysis - 这是对算法的理论分析。 通过假设所有其他因素(例如,处理器速度)是恒定的并且对实现没有影响来测量算法的效率。 A Posterior Analysis - 这是一种算法的实证分析。 所选算法使用编程语言实现。 然后在目标计算机上执行此操作。 在此分析中,收集了所需的运行时间

  • Analysis Options The "Analysis options" tab lets you configure how tokens are handled, and which types of tests are performed during the analysis. Token Handling These settings control how tokens are

  • Package Analysis 是一款识别各类恶意软件的分析工具,可用于捕捉和对抗对开源注册表的恶意攻击。 该工具由开源安全基金会 (OpenSSF)发布,其中包含一些组件来帮助分析开源的软件包,特别是寻找恶意软件。组件包含: 调度程序 —— 从 Package Feeds 为分析工作者创建作业。 分析(one-shot analyze and worker)—— 通过对每个包的静态和动态分析,