当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

ansj_seg

Ansj中文分词
授权协议 Apache
开发语言 Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 谷飞星
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Ansj中文分词

使用帮助

摘要

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。

分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。

目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。

可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

maven

        
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>
    

调用demo

如果你第一次下载只想测试测试效果可以调用这个简易接口


 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

Join Us

想了很久,不管有没有人帮忙吧。我写上来,如果你有兴趣,有热情可以联系我。

  • 补充文档,增加调用实例和说明
  • 增加一些规则性Recognition,举例身份证号码识别,目前未完成的有 时间识别IP地址识别邮箱识别网址识别词性识别等...
  • 提供更加优化的CRF模型。替换ansj的默认模型。
  • 补充测试用例,n多地方测试不完全。如果你有兴趣可以帮忙啦!
  • 重构人名识别模型。增加机构名识别等模型。
  • 增加句法文法分析
  • 实现lstm的分词方式
  • 拾遗补漏...
  • 出现错误:    jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class org.ansj.splitWord.analysis.ToAnalysis not found。          python调用 java 的 ansj_seg 分词工具的时候         开始时候参考的是   

  • <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.3</version> </dependency> val rdd = sc.textFile("C:\\Users\\haha\\Desktop\\chapter.txt") val recogni

  • 分词方式 Jonk edited this page 26 days ago ·  5 revisions  Pages 20 HOME 安装及使用 获得jar包 分词方式 使用技巧 配置文件说明 用户自定义词典 定制你自己的CRF模型 歧义纠正辞典 动作链模式 停用词过滤 书名发现 电子邮箱发现 身份证号码发现 词性标注工具类 衍生功能 关键词抽取 插件及第三方支持 新词发现小工具 创建Rest

  • 1)下载安装包,需要的包括ansj_seg-20130808.jar  、 tree_split-1.1.1.jar、 ambiguity.dic  、  default.dic 2)新建一个java工程 3)在工程中新建一个lib文件夹,把1)里的两个jar文件放进去,右键bulit path 4)新建一个library文件夹,把1)里的两个dic文件放进去 5)写测试页  import jav

  • 原文地址http://blog.csdn.net/bitcarmanlee/article/details/53607776 最近需要使用分词搜索,在网上查找了许多,看了很多分词工具的对比,感觉这个还是非常不错的,相比较与ik更适合我们使用。 在网上查找了许多配置都不能用,大多数都是因为jar包版本不匹配,在这里我使用了两个jar包 ansj_seg 5.0.4 http://mvnreposit

  •  以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代码 用Ansj进行中文

  • 首先之前的ansj2.X版本需要导入两个包ansj_seg-2.0.8-min..jar、nlp-lang-0.2.jar。 现在只需要导入一个包就OK了 简单方便了ansj_seg-5.0.1-all-in-one.jar 好了不说了。直接贴与lucene的代码 其实就这么一句话,就OK了。 public static Analyzer analyzer = new AnsjAnalyzer(A

  • 一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析。分析出手机每个模块(比如:相机,充电等。这些大模块还需要细分,比如充电又可以分:充电慢,没有快充等)的好差评,并且计算差评率,供开发后续改进。之前一直是人工分析,随着评论的增加,这一块也是一个很大的工

  • 最近,工作上用到中文分词ansj,先前我是整合到ES里面,但是觉得这样不利于源码分析,所以我们先把源码部署起来: 在线演示:[url]http://ansj.sdapp.cn/demo/seg.jsp [/url] 官网地址:[url]http://www.ansj.org/ [/url] github:https://github.com/NLPchina/ansj_seg 通过maven引入源

 相关资料
  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba

  • 本文向大家介绍PHPAnalysis中文分词类详解,包括了PHPAnalysis中文分词类详解的使用技巧和注意事项,需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简

  • 中文分词是怎么走到今天的 话说上个世纪,中文自动分词还处于初级阶段,每句话都要到汉语词表中查找,有没有这个词?有没有这个词?所以研究集中在:怎么查找最快、最全、最准、最狠......,所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......,用新世纪比较流行的一个词来形容就是:你太low了! 中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。说句公道话,没有上个世纪

  • 关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。 核心配置: charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le

  • 问题内容: 我希望能够将中文,日文和韩文书写的字符识别为一般组和细分语言。原因如下: 将CJK视为一般团体: 我正在制作一个垂直脚本蒙古语。为此,我需要将文本行旋转90度,因为字形是水平存储在字体中的。但是,对于CJK语言,我需要再次将它们旋转回去,以使它们以正确的方向书写,而只是沿线叠放在一起。 将CJK区分为特定的语言: 我也在制作蒙古文字典,当用户输入CJK字符进行查找时,我想自动识别该语言

  • 问题内容: 我正在创建一个应用程序,该应用程序应该使用get方法从mySql数据库读取文本。 一旦它以字符串的形式从数据库中获取数据元素,就应该拆分字符串并使用该字符串创建列表,但是split()方法似乎在这里不起作用。 J2ME说-我该怎么办? 我的代码如下: 我已经在台式机和控制台应用程序上进行了尝试,并且看起来运行良好,但是代码无法在j2me应用程序中运行。我应该使用一种方法吗?我能做什么?