当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

Chinese dialect convert

中文分词库
授权协议 GPL
开发语言 Java
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 屈宏爽
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

该软件是基于IK analyzer中文分词系统,以及基于知网的词语相似度计算一文,开发的能够将普通话转换为方言的分词翻译系统。软件采用基于词库的中文方言分词,对普通话的句子进行最大分词,从而进行方言的转换。由于目前研究方言的资料比较少,基于语义识别方言的难度也比较大,因此对句子进行转换的效果只是基于字面的翻译。同时,结合北航的一个同学的词语相似度计算,实现了未识别词语的相似词搜索翻译功能,能够最大限度的提高翻译的准确度。

目前 实现了陕西方言,四川方言。武汉话,粤语正在开发中

欢迎交流 handsomestone@gmail.com

 相关资料
  • Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or debian

  • 介绍 现阶段,应用于搜索引擎和自然语言处理的中文分词库五花八门,使用方式各不统一,虽然有适配于Lucene和Elasticsearch的插件,但是我们想在多个库之间选择更换时,依旧有学习时间。 Hutool针对常见中文分词库做了统一接口封装,既定义一套规范,隔离各个库的差异,做到一段代码,随意更换。 Hutool现在封装的引擎有: Ansj HanLP IKAnalyzer Jcseg Jieba

  • 本文向大家介绍PHPAnalysis中文分词类详解,包括了PHPAnalysis中文分词类详解的使用技巧和注意事项,需要的朋友参考一下 PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType   = 1        生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简

  • 中文分词是怎么走到今天的 话说上个世纪,中文自动分词还处于初级阶段,每句话都要到汉语词表中查找,有没有这个词?有没有这个词?所以研究集中在:怎么查找最快、最全、最准、最狠......,所以就出现了正向最大匹配法、逆向最大匹配法、双向扫描法、助词遍历法......,用新世纪比较流行的一个词来形容就是:你太low了! 中文自动分词最难的两个问题:1)歧义消除;2)未登陆词识别。说句公道话,没有上个世纪

  • 关于中文分词的详细配置实例和分词词典的自定义设置,可以访问Coreseek网站中文分词核心配置查看。 核心配置: charset_dictpath = /usr/local/mmseg3/etc/ charset_type = zh_cn.utf-8 #charset_table = .................... #需将原有的该配置注释掉 ngram_le

  • 本文向大家介绍python中文分词库jieba使用方法详解,包括了python中文分词库jieba使用方法详解的使用技巧和注意事项,需要的朋友参考一下 安装python中文分词库jieba 法1:Anaconda Prompt下输入conda install jieba 法2:Terminal下输入pip3 install jieba 1、分词 1.1、CUT函数简介 cut(sentence,

  • 我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中,它们属于某些类别(键)。由此,我想创建与存储单词的类别相对应的列。和往常一样,最好用例子来说明: 我有一个数据框: 它创建表: 还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词,可以包括短语,例如本例中的“alloy wheels”(这不一定是字典,我只是觉得这是最好的方法): 根据这个,我想创建一个如下所

  • word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反