当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

jieba.NET

结巴分词 .NET 版
授权协议 MIT
开发语言 .NET
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 白修谨
操作系统 Windows
开源组织
适用人群 未知
 软件概览

jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)。当前版本为 0.37.1,基于 jieba 0.37,目标是提供与 jieba 一致的功能与接口,但以后可能会在 jieba 基础上提供其它扩展功能。当前主要提供分词、词性标注和关键词提取功能。

特点

  • 支持三种分词模式:

    • 精确模式,试图将句子最精确地切开,适合文本分析;

    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持繁体分词

  • 支持自定义词典

  • MIT 授权协议

  • 一、jiebaForLuceneNet的使用 JiebaAnalyzer:与Lucene.NET集成的主接口,添加索引和搜索时使用此类的实例作为analyzer参数 JiebaTokenizer:为JiebaAnalyzer提供分词功能 Integration.LuceneNet.Sample项目中有示例,演示如何通过jieba分词添加索引和搜索 二、若对Lucene.NET不甚熟悉,请先看: L

  • jieba.NET是jieba中文分词的.NET版本(C#实现)。 当前版本为0.38.2,基于jieba 0.38,提供与jieba一致的功能与接口,以后可能会在jieba基础上提供其它扩展功能。关于jieba的实现思路,可以看看这篇wiki里提到的资料。 如果您在开发中遇到与分词有关的需求或困难,请提交一个Issue,I see u:) 特点 支持三种分词模式: 精确模式,试图将句子最精确地切

  • 首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。 看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实现了最简单的集成:jiebaForLuceneNet。下面给出简单的介绍。 1、JiebaToken

  • 简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了。最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不

  • 简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了。最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不

 相关资料
  • 双非本科,参加了无数场面试,以下是最近面阿里的总结: 阿里 面经1 简单介绍项目 知道哪些数据结构以及他们的特点 链表增删快,那如何提高其查询效率,有没有什么想法? B+树了解吗?B+树如何范围查询?B+树退化的极端情况是什么? 跳表了解吗? 大顶堆、小顶堆了解吗? 实现长地址请求到服务端,然后服务端重定向短地址给客户端,如何实现长短地址的互相映射? 那我现在有10份数据,有1000个线程来争抢,

  • 本文向大家介绍.NET逻辑分层架构总结,包括了.NET逻辑分层架构总结的使用技巧和注意事项,需要的朋友参考一下 一.基础知识准备:   1.层的原则:   (1)每一层以接口方式供上层调用。   (2)上层只能调用下层。   (3)依赖分为松散交互和严格交互两种。   2.业务逻辑分类:   (1)应用逻辑。   (2)领域逻辑。   3.采用的层:   (1)表示层(用户接口层):领域无关。  

  • Swift 的词汇结构描述了怎样的语言字符序列才能形成有效标记。这些有效标记来自底层的语言构建块,用来描述随后章节里的其它语言。一个标记由标识符,关键字,标点符号,文字或者运算符组成。 在大部分情况下,标记是通过输入文本中最长可能输入的子句来从 Swift 源文件的特征中生成。这种行为参考自最长匹配或者最大匹配。 空白和注释 空白有两个用处:在源文件中分隔标记以及帮助决定运算符是前缀还是后缀(参见

  • 本页包含内容: 空白与注释(Whitespace and Comments) 标识符(Identifiers) 关键字(Keywords) 字面量(Literals) 运算符(Operators) Swift 的“词法结构(lexical structure)”描述了如何在该语言中用字符序列构建合法标记,组成该语言中最底层的代码块,并在之后的章节中用于描述语言的其他部分。 通常,标记在随后介绍的语

  • word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注、反

  • 我的一个应用程序通过读取数组列表将对象绘制到屏幕上: 简单代码摘要: 问题是每次用户点击鼠标时我都会添加更多的对象,所以如果用户点击的速度足够快,我会导致程序绘画结结巴巴,因为它在写入时无法读取(arrayList是同步的)。开发人员处理这种并发问题的常用做法是什么? 编辑:下面是调用重新绘制的代码: *其中operations()计算“paintable”对象属性的更改,移除满足特定条件的对象,