当前位置: 首页 > 面试题库 >

Java的简单自然语言处理启动程序

卢磊
2023-03-14
问题内容

我愿意开始在NLP上开发一个项目。我不知道可用的许多工具。谷歌搜索大约一个月后。我意识到openNLP可以成为我的解决方案。

不幸的是,我没有看到使用API​​的完整教程。它们都缺少一些常规步骤。我需要一个基础教程。我在网站上看到了很多下载,但不知道如何使用它们?我需要训练还是什么?..这是我想知道的-

如何安装/设置NLP系统,该系统可以-

  1. 解析英语句子单词
  2. 识别语音的不同部分

问题答案:

您说您需要“解析”每个句子。您可能已经知道这一点,但是为了明确起见,在NLP中,术语“解析”通常意味着恢复某种分层的语法结构。最常见的类型是构成结构(例如,通过上下文无关的语法)和依赖结构。

如果需要层次结构,建议您考虑从解析器开始。我知道的大多数解析器在解析过程中都包含POS标记,并且可能提供比有限状态POS标记器更高的准确性标记(Caveat-
与依赖解析器相比,我对构成解析器更为熟悉。某些或大多数依赖解析器可能会需要POS标签作为输入)。

解析的最大缺点是时间复杂度。有限状态POS标记器通常以每秒数千个字的速度运行。即使是贪婪的依赖解析器也要慢得多,组成解析器通常以每秒1-5个句子的速度运行。因此,如果您不需要层次结构,则可能要坚持使用有限状态POS标记器以提高效率。

如果确定需要解析结构,请提出以下建议:

我认为@aab建议的Stanford解析器同时包含成分解析器和依赖解析器。

伯克利解析器(http://code.google.com/p/berkeleyparser/)是非常知名的PCFG组成解析器,具有最先进的准确性(我相信,它等于或优于斯坦福解析器)
,并且相当有效(每秒约3-5个句子)。

BUBS解析器(http://code.google.com/p/bubs-parser/)也可以使用高精度的伯克利语法运行,并将效率提高到大约15-20句/秒。全面披露-我是该解析器的主要研究人员之一。

警告:这两个解析器都是研究代码,并带来所有问题。但我希望看到人们实际上在使用BUBS,因此,如果对您有用,请尝试一下,并与我联系以提出问题,评论,建议等。

如有需要,可以参考一些维基百科的背景资料:

  • 上下文无关的语法:http : //en.wikipedia.org/wiki/Stochastic_context-free_grammar

  • 依赖语法:http : //en.wikipedia.org/wiki/Dependency_grammar



 类似资料:
  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes

  • 来自 PythonProgramming.net 的文章,欢迎阅读自然语言处理系列教程,使用 Python 的自然语言工具包 NLTK 模块。

  • 本文向大家介绍用Python进行一些简单的自然语言处理的教程,包括了用Python进行一些简单的自然语言处理的教程的使用技巧和注意事项,需要的朋友参考一下 本月的每月挑战会主题是NLP,我们会在本文帮你开启一种可能:使用pandas和python的自然语言工具包分析你Gmail邮箱中的内容。 NLP-风格的项目充满无限可能:     情感分析是对诸如在线评论、社交媒体等情感内容的测度。举例来说,关

  • 知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info

  • PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)

  • 这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。