imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中 文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。
主要特点:
1. 完全Unicode支持
分词核心模块完全采用Unicode编码,无须各种汉字编码的转换,极大的提升了分词的效率。
2. 提升搜索效率
根据imdict智能词典的实践,在有智能中文分词的情况下,索引文件比没有中文分词的索引文件小1/3
3. 提高搜索准确度
imdict-chinese-analyzer采用了HHMM分词模型,极大的提高了分词的准确率,在此基础上的搜索,比对汉字逐个切分要准确得多!
4. 更高效的数据结构
为了提高效率,针对常用中文检索的应用场景,imdict-chinese-analyzer对一些不必要的功能进行了删减,例如词性标注、人名识别、时 间识别等等。另外还修改了算法的数据结构,在内存占用量缩减到1/3的情况下把效率提升了数倍。
下载链接http://ictclas.org/Down_OpenSrc.asp 简单介绍: imdict-chinese-analyzer是 imdict智能词典的智能中文分词模块,作者高小平,算法基于隐马 尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序 的重新实现(基于Java),可以直接为lucene搜索引擎提供中文分词
改造nutch,将原来的中文分词程序改成imdict-chinese-analyzer,这个是根据中科院的c版分词程序而来的纯java版。 下载imdict-chinese-analyzer 我下的是imdict-chinese-analyzer-java5.zip nutch1.0 下载来的imdict-chinese-analyzer-java5.zip里面只是
1 前言 昨天在nutch中添加了JE中文分词,今天有试了下基于中科院的多层隐马模型的分词组件,imdict-chinese-analyzer,目前这个组件已经正式集成到lucene-3.0,具体在要用到lucene-analyzers-3.0.1.jar 和 lucene-smartcn-3.0.1.jar 这二个包在contrib\analyzers文件,由于nutch-1.0中的luce
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian
软件简介: 语言岛智能记单词 是一款帮助用户学单词的记忆工具,使用现在流行的艾宾浩斯智能记忆引擎。《语言岛智能记单词》大大超过传统的学习方法,使记忆单词更加有效;使用本软件你可以最大限度的减少以往记单词所花费的时间 或者 增加你记单词的量。本软件免费提供多达497本教程的词汇量,用户可以根据自身需要下载教程。 软件特性: *免费-本软件完全免费(包括软件和课程)。 *跨平台-可以在Windows
单条分单 批量分单 订单状态统计 按图层订单统计 全部订单统计
介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba
问题内容: 我正在寻找智能分页的示例算法。聪明地说,我的意思是,例如,我只想显示当前页面的2个相邻页面,因此我截断了它而不是结束一个冗长的页面列表。 这是一个简单的例子,可以使它更清楚……这就是我现在所拥有的: 这就是我要结束的事情: (在此示例中,我仅显示当前页面的2个相邻页面) 我正在PHP / Mysql中实现它,并且已经对“基本”分页(没有任何删节)进行了编码,我只是在寻找一个示例来对其进
我目前正在使用:“angular smart table”:“2.1.0”“angular”:“1.3.15” 单击智能表格项目时,我的应用程序会在另一个页面中显示项目详细信息。在访问项目页面后,我想回到智能表格页面上的相同页码(屏幕截图上的2):屏幕截图 我的问题: 不知道如何保存currentPage(rootscope、Parameter?) 以下是分页视图,用于管理分页: “智能表插件指令