当前位置: 首页 > 软件库 > 程序开发 > 常用工具包 >

smartcn-dict

smartcn 词库构造工具
授权协议 GPL
开发语言 Java
所属分类 程序开发、 常用工具包
软件类型 开源软件
地区 国产
投 递 者 巫晋鹏
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

lucene 中 smartcn 分词器使用自带的词库,在工作中,需要扩展词库,而自带的词库是使用自然语言处理生成的词库,如果我们已有词库或者不想通过自然语言处理构建词库时,可使用该工具构造词库,使用方法如下:

  • 创建词库文件,词库每一行格式为:#词汇# #词频#,其中,词频可以不存在,当词频不存在时,工具会随机生成100以内的伪词频

  • 使用com.tiktok01.smartcn包中的CmdApp类,或者编译后的jar包,jar包参数如下: -srcdict: 自建词库文件路径 -coremem: 原始词库coredict.mem文件的路径,可为空,不为空则合并 -target: dict文件生成目录,会在该目录中生成new_coredict.dct和new_bigramdict.dct文件

  • 词库使用方法: 方法一: 修改并编译smartcn包的源码 方法二: 参考源码中test目录的做法,重写Smartcn的Analyzer类型,反射重新加载dict文件

  • 一、引言:   中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几。我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看

 相关资料
  • 简介 Laravel 的数据库查询构造器为创建和运行数据库查询提供了一个方便的接口。它能用来执行应用程序中的大部分数据库操作,且可在所有支持的数据库系统上运行。 Laravel 的查询构造器使用 PDO 参数绑定来保护您的应用程序免受 SQL 注入攻击。因此没有必要清理作为绑定传递的字符串。 获取结果 从数据表中获取所有行 你可以 DB facade 上使用 table 方法来开始查询。该 tab

  • C 风格的循环通常不必要 你可以写 C 风格的循环,但常常不需要它们。 不要在 foreach 的位置使用它们: for (my $i = 0; $i <= $#foo; $i++) { # BAD foreach (@foo) { # BETTER 不要在 while 的位置使用它们: for (my $i = <STDIN>; $i; $i = <STDIN>) { # BAD whil

  • 这是一款放置型游戏,游戏虽然没什么精美的图片和动听的音乐,但还是有相当的经营乐趣。

  • 在Dart中,工厂构造函数需要编码器提供更多逻辑,但与常量构造函数没有太大区别,只是它们允许“非最终”实例变量。 与const Constructor相比,它们有哪些优点? 谢谢大家。 编辑 下面是关于Seth Ladd博客“Dart-试图理解“工厂”构造函数的价值”中工厂构造函数的用法。 恕我直言,使用通用构造函数,可以通过细微的差异实现相同的效果,但相当简单。 如上所示,尽管这两个实例 所以,

  • 问题内容: 考虑到android活动的情况,第一个起作用的方法是它的method ..对吗? 假设我想将2个参数传递给android活动类say 。为此,创建活动类的构造函数并接受参数。 但是,当我们调用活动时,我们并没有初始化Activity类,而只是在创建类的意图。 然后,如何在不使用用法的情况下将参数从另一个活动传递给该活动。 专家请阐明我们如何解决这种情况。 问题答案: 不知道为什么您不想

  • 问题内容: 有人可以澄清Javascript中的构造函数和工厂函数之间的区别。 何时使用一个代替另一个? 问题答案: 基本区别在于,构造函数与关键字一起使用(这会使JavaScript自动创建一个新对象,在该函数内将该对象设置为该对象,然后返回该对象): 工厂函数的调用类似于“常规”函数: 但是要使其成为“工厂”,就需要返回某个对象的新实例:如果它仅返回布尔值或其他内容,则不会将其称为“工厂”函数