nlp-lang

nlp 项目常用工具包
授权协议 未知
开发语言 Java
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 国产
投 递 者 公羊涛
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

nlp-lang

文档地址:http://www.nlpcn.org/docs/7 部分演示:http://www.nlpcn.org/demo

MAVEN

<dependencies>
    <dependency>
        <groupId>org.nlpcn</groupId>
        <artifactId>nlp-lang</artifactId>
        <version>1.7.6</version>
    </dependency>
</dependencies>

 

这个项目是一个基本包.封装了大多数nlp项目中常用工具

工具

  • 词语标准化 

  • tire树结构

  • 双数组tire树

  • 文本断句

  • html标签清理

  • Viterbi算法增加

组件

  • 汉字转拼音

  • 简繁体转换

  • bloomfilter

  • 指纹去重

  • SimHash文章相似度计算

  • 词共现统计

  • 基于内存的搜索提示

  • WordWeight词频统计,词idf统计,词类别相关度统计

 

  • 1、首先在pom中引入ansj_seg和nlp-lang的依赖包,   ansj_seg包的作用:     这是一个基于n-Gram+CRF+HMM的中文分词的java实现;     分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上;     目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能;     可以应用到自

  • 项目中使用汉子转拼音,繁简体的相互转换 繁简相互转换 String str = "點下面繁體字按鈕進行在線轉換" ; System.out.println(JianFan.f2j(str)); String str1 = "点下面繁体字按钮进行在线转换"; System.out.println(JianFan.j2f(str)``` ; 结果: 点下面繁体

  • 引入 书接上回,我们讲这个关键词提取的时候没有说停用词; 那啥是停用词呢?当一个词语出现频率很高但是这个词并不是你所需要的信息,这个时候就会用到停用词表这个概念 什么是停用词表? 停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。 这些停用词都是人工输入、非自动化生成的,生成后的停

  • 关于 monocleaner monocleaner 是用于检测单语句子的流畅度的工具。 建议在 linux 上使用monocleaner,由于monocleaner 的依赖包 FastSpell 在 Mac上安装失败(如果你成功了,欢迎告知我安装方式),所以不建议在 Mac 上使用。 提供了训练工具 monocleaner-train, 同时你也可以直接使用语言包。 你可以使用 monoclea

  • 前言 本文以介绍 nlp 常见分词方法为目的,具体效果请大家自行辨别 中文分词 jieba 代码 jieba.enable_paddle() # 启动paddle模式。 0.40版之后开始支持,早期版本不支持 seg_list = jieba.cut(data, use_paddle=True) # 使用paddle模式 print("Paddle Mode: " + '/'.

  • 如果您正在google的colab中打开这个notebook,您可能需要安装Transformers和珞Datasets库。将以下命令取消注释即可安装。 ! pip install datasets transformers sacrebleu sentencepiece 如果您正在本地打开这个notebook,请确保您认真阅读并安装了transformer-quick-start-zh的rea

  • 专注于文本分类、关键词抽取、文本摘要、FQA问答系统、对话系统语义理解NLU、知识图谱等。结合工业界具体案例和学术界最新研究成果实现NLP技术场景落地。本文主要分析NER 在小规模数据集下BERT上快速验证,关于完成的意图识别和槽位抽取将在后续博客中总结分享。  博客:https://wenjie.blog.csdn.net/ 作者:走在前方 更多精彩内容加入“NLP技术交流群” 学习。 主要内容

 相关资料
  • 其它非核心有用功能,例如:组合多个业务。 fabric.contrib.project.rsync_project(*args, **kwargs) 使用 rsync 讲远程路径和本地项目同步。 upload_project() 使用 scp 来复制整个项目,rsync_project() 会使用 rsync 命令,只会将本地比远程更新的文件同步过去。 rsync_project() 只是一个简单

  • 问题内容: 我正在做一个项目,该项目包括一个网站,该网站连接到NCBI(国家生物技术信息中心)并在其中搜索文章。问题是我必须对所有结果进行一些文本挖掘。我正在使用JAVA语言进行文本挖掘,并使用ICEFACES与AJAX进行网站开发。我拥有什么:搜索返回的文章列表。每篇文章都有一个ID和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键字,找到重复次数最多的关键字。因此,

  • 主要内容:util.callbackify,实例,util.inherits,util.inspect,util.isArray(object),util.isRegExp(object),util.isDate(object)util 是一个Node.js 核心模块,提供常用函数的集合,用于弥补核心 JavaScript 的功能 过于精简的不足。 使用方法如下: util.callbackify util.callbackify(original) 将 异步函数(或者一个返回值为 的函数)转换

  • 3D 编辑器 3D 编辑器是用于构建 3D 模型的工具集合,有商业的和免费的可用,这是其中一些受欢迎的编辑器: Blender (Free) 3DS Max Cinema4D Maya 大多数 3D 编辑器都能将文件保存成通用的格式,方便文件在其它编辑器中使用,同时也方便了游戏引擎对 3D 模型的导入和使用。 Cocos2d-x 提供的工具 Cocos2d-x 提供了一个转换工具,可以将编辑器生成

  • util 是一个Node.js 核心模块,提供常用函数的集合,用于弥补核心JavaScript 的功能 过于精简的不足。 util.inherits util.inherits(constructor, superConstructor)是一个实现对象间原型继承 的函数。 JavaScript 的面向对象特性是基于原型的,与常见的基于类的不同。JavaScript 没有 提供对象继承的语言级别特性

  • scapy是一个强大的python网络数据包处理库,它可以生成或解码网络协议数据包,可以用来端口扫描、探测、网络测试等。 scapy安装 pip install scapy 简单使用 scapy提供了一个简单的交互式界面,直接运行scapy命令即可进入。当然,也可以在python交互式命令行中导入scapy包进入 from scapy.all import * 查看所有支持的协议和预制工具: ls

  • 找软件公司开发的项目到测试的阶段,有没有必要找第三方来给项目做个项目检测?

  • Linux中有很多非常实用的工具或命令,灵活运用这些工具,可以帮助我们在Shell编程中化繁为简,如虎添翼。可能一个工具或命令就能让原本负责的问题快速解决,本章节我们来一起丰富我们的工具库,日常可以多积累总结,帮助我们更好的编写Shell。 1. sort 简介:顾名思义,就是用来排序的工具,在我们日常工作中对于重复列的多行输出,如果想要对内容按照特定规则排序,此时就用到了sort工具。 原理:s