当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

ansj_seg

Ansj中文分词

授权协议 Apache

开发语言 Python

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者谷飞星

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Ansj中文分词

使用帮助

开发文档：3.x版本及之前，5.x版本及之后

摘要

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。

分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。

目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。

可以应用到自然语言处理等方面，适用于对分词效果要求高的各种项目。

maven

        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>

调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口


 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

Join Us

想了很久，不管有没有人帮忙吧。我写上来，如果你有兴趣，有热情可以联系我。

补充文档，增加调用实例和说明
增加一些规则性Recognition，举例身份证号码识别，目前未完成的有 时间识别，IP地址识别，邮箱识别，网址识别，词性识别等...
提供更加优化的CRF模型。替换ansj的默认模型。
补充测试用例，n多地方测试不完全。如果你有兴趣可以帮忙啦！
重构人名识别模型。增加机构名识别等模型。
增加句法文法分析
实现lstm的分词方式
拾遗补漏...

使用案例

python调用 java 的 ansj_seg 分词工具

出现错误： jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class org.ansj.splitWord.analysis.ToAnalysis not found。 python调用 java 的 ansj_seg 分词工具的时候开始时候参考的是
ansj_seg使用

<dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.3</version> </dependency> val rdd = sc.textFile("C:\\Users\\haha\\Desktop\\chapter.txt") val recogni
NLPchina/ansj_seg

分词方式 Jonk edited this page 26 days ago · 5 revisions Pages 20 HOME 安装及使用获得jar包分词方式使用技巧配置文件说明用户自定义词典定制你自己的CRF模型歧义纠正辞典动作链模式停用词过滤书名发现电子邮箱发现身份证号码发现词性标注工具类衍生功能关键词抽取插件及第三方支持新词发现小工具创建Rest
ansj_seg初次使用

1）下载安装包，需要的包括ansj_seg-20130808.jar 、 tree_split-1.1.1.jar、 ambiguity.dic 、 default.dic 2）新建一个java工程 3）在工程中新建一个lib文件夹，把1）里的两个jar文件放进去，右键bulit path 4）新建一个library文件夹，把1）里的两个dic文件放进去 5）写测试页 import jav
ansj_seg 学习，自定义词典加载

原文地址http://blog.csdn.net/bitcarmanlee/article/details/53607776 最近需要使用分词搜索，在网上查找了许多，看了很多分词工具的对比，感觉这个还是非常不错的，相比较与ik更适合我们使用。在网上查找了许多配置都不能用，大多数都是因为jar包版本不匹配，在这里我使用了两个jar包 ansj_seg 5.0.4 http://mvnreposit
【Java】Java中文分词器Ansj的使用

以前都是用C++对中文进行分词，也用过Python的“结巴”分词，最近用了一下Java的Ansj中文分词，感觉还不错。下面是用Ansj对中文进行分词的一个简单例子，希望能对大家有用。 1.下载Ansj的相关jar包要用Ansj进行中文分词，必须先下载Ansj的jar包，下载地址可以参考：https://github.com/NLPchina/ansj_seg 2.程序代码用Ansj进行中文
ansj_Seg5.0.1版本与lucene的集成以及ansj_seg 5.0.1使用

首先之前的ansj2.X版本需要导入两个包ansj_seg-2.0.8-min..jar、nlp-lang-0.2.jar。现在只需要导入一个包就OK了简单方便了ansj_seg-5.0.1-all-in-one.jar 好了不说了。直接贴与lucene的代码其实就这么一句话，就OK了。 public static Analyzer analyzer = new AnsjAnalyzer(A
项目集成自动分词系统ansj，实现自定义词库

一，分词系统地址：https://github.com/NLPchina/ansj_seg 二，为什么选择ansj？ 1.项目需求：我们平台要做手机售后的舆情分析，即对购买手机的用户的评论进行分析。分析出手机每个模块(比如：相机，充电等。这些大模块还需要细分，比如充电又可以分：充电慢，没有快充等)的好差评，并且计算差评率，供开发后续改进。之前一直是人工分析，随着评论的增加，这一块也是一个很大的工
ansj_seg源码分析之用户自定义词库

最近，工作上用到中文分词ansj，先前我是整合到ES里面，但是觉得这样不利于源码分析，所以我们先把源码部署起来：在线演示：[url]http://ansj.sdapp.cn/demo/seg.jsp [/url] 官网地址：[url]http://www.ansj.org/ [/url] github:https://github.com/NLPchina/ansj_seg 通过maven引入源

ansj_seg

Ansj中文分词

同类工具

相关阅读

相关文章

相关问答

相关文档