当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

Sego

Go 中文分词

授权协议 Apache

开发语言 Google Go HTML/CSS

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者任昊苍

操作系统跨平台

开源组织无

适用人群未知

软件概览

词典用双数组trie（Double-Array Trie）实现，分词器算法为基于词频的最短路径加动态规划。

支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSON RPC服务。

分词速度单线程9MB/s，goroutines并发42MB/s（8核Macbook Pro）。

示例代码：

package main

import (
    "fmt"
    "github.com/huichen/sego"
)

func main() {
    // 载入词典
    var segmenter sego.Segmenter
    segmenter.LoadDictionary("github.com/huichen/sego/data/dictionary.txt")

    // 分词
    text := []byte("中华人民共和国中央人民政府")
    segments := segmenter.Segment(text)

    // 处理分词结果
    // 支持普通模式和搜索模式两种分词，见代码中SegmentsToString函数的注释。
    fmt.Println(sego.SegmentsToString(segments, false)) 
}

相关资料

genius中文分词

Genius Genius是一个开源的python中文分词组件，采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。支持简单的pinyin分词支持用户自定义break 支持用户自定义合并词典支持词性标注 Source Install 安装git: 1) ubuntu or debian
中文分词封装-TokenizerUtil

介绍现阶段，应用于搜索引擎和自然语言处理的中文分词库五花八门，使用方式各不统一，虽然有适配于Lucene和Elasticsearch的插件，但是我们想在多个库之间选择更换时，依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装，既定义一套规范，隔离各个库的差异，做到一段代码，随意更换。 Hutool现在封装的引擎有： Ansj HanLP IKAnalyzer Jcseg Jieba
PHPAnalysis中文分词类详解

本文向大家介绍PHPAnalysis中文分词类详解，包括了PHPAnalysis中文分词类详解的使用技巧和注意事项，需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简
探究中文分词的艺术

中文分词是怎么走到今天的话说上个世纪，中文自动分词还处于初级阶段，每句话都要到汉语词表中查找，有没有这个词？有没有这个词？所以研究集中在：怎么查找最快、最全、最准、最狠......，所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......，用新世纪比较流行的一个词来形容就是：你太low了！中文自动分词最难的两个问题：1）歧义消除；2）未登陆词识别。说句公道话，没有上个世纪
10.1.中文分词核心配置

关于中文分词的详细配置实例和分词词典的自定义设置，可以访问Coreseek网站中文分词核心配置查看。核心配置： charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
在Android中区分CJK语言（中文，日文，韩文）

问题内容：我希望能够将中文，日文和韩文书写的字符识别为一般组和细分语言。原因如下：将CJK视为一般团体：我正在制作一个垂直脚本蒙古语。为此，我需要将文本行旋转90度，因为字形是水平存储在字体中的。但是，对于CJK语言，我需要再次将它们旋转回去，以使它们以正确的方向书写，而只是沿线叠放在一起。将CJK区分为特定的语言：我也在制作蒙古文字典，当用户输入CJK字符进行查找时，我想自动识别该语言
在J2ME中分割文字

问题内容：我正在创建一个应用程序，该应用程序应该使用get方法从mySql数据库读取文本。一旦它以字符串的形式从数据库中获取数据元素，就应该拆分字符串并使用该字符串创建列表，但是split（）方法似乎在这里不起作用。 J2ME说-我该怎么办？我的代码如下：我已经在台式机和控制台应用程序上进行了尝试，并且看起来运行良好，但是代码无法在j2me应用程序中运行。我应该使用一种方法吗？我能做什么？
在java中拆分文件

Sego

同类工具

相关阅读

相关文章

相关问答

相关文档