使用帮助
摘要
这是一个基于n-Gram+CRF+HMM的中文分词的java实现。
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。
目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
maven
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
调用demo
如果你第一次下载只想测试测试效果可以调用这个简易接口
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
Join Us
想了很久,不管有没有人帮忙吧。我写上来,如果你有兴趣,有热情可以联系我。
时间识别
,IP地址识别
,邮箱识别
,网址识别
,词性识别
等...出现错误: jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class org.ansj.splitWord.analysis.ToAnalysis not found。 python调用 java 的 ansj_seg 分词工具的时候 开始时候参考的是
<dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.3</version> </dependency> val rdd = sc.textFile("C:\\Users\\haha\\Desktop\\chapter.txt") val recogni
分词方式 Jonk edited this page 26 days ago · 5 revisions Pages 20 HOME 安装及使用 获得jar包 分词方式 使用技巧 配置文件说明 用户自定义词典 定制你自己的CRF模型 歧义纠正辞典 动作链模式 停用词过滤 书名发现 电子邮箱发现 身份证号码发现 词性标注工具类 衍生功能 关键词抽取 插件及第三方支持 新词发现小工具 创建Rest
1)下载安装包,需要的包括ansj_seg-20130808.jar 、 tree_split-1.1.1.jar、 ambiguity.dic 、 default.dic 2)新建一个java工程 3)在工程中新建一个lib文件夹,把1)里的两个jar文件放进去,右键bulit path 4)新建一个library文件夹,把1)里的两个dic文件放进去 5)写测试页 import jav
原文地址http://blog.csdn.net/bitcarmanlee/article/details/53607776 最近需要使用分词搜索,在网上查找了许多,看了很多分词工具的对比,感觉这个还是非常不错的,相比较与ik更适合我们使用。 在网上查找了许多配置都不能用,大多数都是因为jar包版本不匹配,在这里我使用了两个jar包 ansj_seg 5.0.4 http://mvnreposit
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代码 用Ansj进行中文
首先之前的ansj2.X版本需要导入两个包ansj_seg-2.0.8-min..jar、nlp-lang-0.2.jar。 现在只需要导入一个包就OK了 简单方便了ansj_seg-5.0.1-all-in-one.jar 好了不说了。直接贴与lucene的代码 其实就这么一句话,就OK了。 public static Analyzer analyzer = new AnsjAnalyzer(A
一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析。分析出手机每个模块(比如:相机,充电等。这些大模块还需要细分,比如充电又可以分:充电慢,没有快充等)的好差评,并且计算差评率,供开发后续改进。之前一直是人工分析,随着评论的增加,这一块也是一个很大的工
最近,工作上用到中文分词ansj,先前我是整合到ES里面,但是觉得这样不利于源码分析,所以我们先把源码部署起来: 在线演示:[url]http://ansj.sdapp.cn/demo/seg.jsp [/url] 官网地址:[url]http://www.ansj.org/ [/url] github:https://github.com/NLPchina/ansj_seg 通过maven引入源
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian
介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba
本文向大家介绍PHPAnalysis中文分词类详解,包括了PHPAnalysis中文分词类详解的使用技巧和注意事项,需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简
中文分词是怎么走到今天的 话说上个世纪,中文自动分词还处于初级阶段,每句话都要到汉语词表中查找,有没有这个词?有没有这个词?所以研究集中在:怎么查找最快、最全、最准、最狠......,所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......,用新世纪比较流行的一个词来形容就是:你太low了! 中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。说句公道话,没有上个世纪
关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。 核心配置: charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le
问题内容: 我希望能够将中文,日文和韩文书写的字符识别为一般组和细分语言。原因如下: 将CJK视为一般团体: 我正在制作一个垂直脚本蒙古语。为此,我需要将文本行旋转90度,因为字形是水平存储在字体中的。但是,对于CJK语言,我需要再次将它们旋转回去,以使它们以正确的方向书写,而只是沿线叠放在一起。 将CJK区分为特定的语言: 我也在制作蒙古文字典,当用户输入CJK字符进行查找时,我想自动识别该语言
问题内容: 我正在创建一个应用程序,该应用程序应该使用get方法从mySql数据库读取文本。 一旦它以字符串的形式从数据库中获取数据元素,就应该拆分字符串并使用该字符串创建列表,但是split()方法似乎在这里不起作用。 J2ME说-我该怎么办? 我的代码如下: 我已经在台式机和控制台应用程序上进行了尝试,并且看起来运行良好,但是代码无法在j2me应用程序中运行。我应该使用一种方法吗?我能做什么?