当前位置: 首页 > 知识库问答 >
问题:

如何通过java使用stanford-nlp或OpenNLP从给定文本中提取/识别单词或文本

慕乐语
2023-03-14

我即将从社交媒体、新闻网站、博客上发布的与政治、战争、DRUGS等特定领域相关的RAW测试中提取一些信息。所以我已经开始使用一些开源库,例如stanford-nlp、apache OpenNLP以及称为lexalytics的商业许可工具。

根据我的项目,我们正在分析公开发布的文本并生成一些结果,并根据一些参数进行挖掘,以确定这些帖子与什么类别相关。

但我需要使用斯坦福nlp库从给定的文本中提取主题。主题是指与教育、政治等相关的文本或句子。我已经能够以这种方式提取包含位置、日期、人和金钱的文本/句子等实体。

lexalytics也提供了相同的主题提取,这是一个许可证工具。

谢谢你的帮助。

谢谢

共有1个答案

莫宁
2023-03-14

文本文档中的主题提取可以使用生成性建模来完成,其中分布的单词被假定为基于主题的先验词,而像LDA这样的算法是为主题部署的

开放加莱APIhttp://www.opencalais.com/opencalais-api/为您提供一个或多个主题,以及文档所基于的相关置信值。

 类似资料:
  • 问题内容: 就像标题所说的那样,我试图编写一个程序,该程序可以从文本文件中读取单个单词并将其存储到变量中。我知道如何使用或来读取单曲,但是对于我试图这样做的行不通。一旦输入了单词,我就尝试使用.equals将它们与程序中的其他String变量进行比较,因此最好将其导入为Strings。我也可以将文本文件中的整行作为字符串输入,在这种情况下,我只需要在文件的每一行中输入一个单词即可。如何从文本文件输

  • 我正在尝试使用NLP技术在下面的文本行中查找课程。 这是我的错 我可以从这一行中提取课程吗? 在我真正的项目中,我将得到很多文件,我需要从这些文件中获得课程名称。 感谢您的帮助!

  • 我想读一个文本文件,打印出已知单词前面的单词,比如Java中的xxx。我使用Scanner类用java编写了这段代码。但是这段代码只打印了“xxx”前面的一半单词,而“xxx”前面的一些单词则丢失了。我想知道是什么问题,你能解决这个代码吗。 测试文件包含类似的内容

  • 问题内容: 假设您有一个像这样的文本文件:http : //www.gutenberg.org/files/17921/17921-8.txt 有没有人有一个好的算法或开放源代码从文本文件中提取单词?如何获得所有单词,同时避免使用特殊字符,并保留诸如“ it’s”之类的内容… 我在用Java工作。谢谢 问题答案: 这听起来像是正则表达式的正确工作。如果您不知道如何开始,以下是一些Java代码,可以

  • 问题内容: 有谁知道从文本中仅提取名词的最简单方法? 我听说过TreeTagger工具,但尝试尝试一下,但由于某种原因而无法使用。 有什么建议? 谢谢菲尔 编辑: 那是我的代码,英语是语言。我遇到了错误:new TokenHandler(){}类型必须实现继承的抽象方法TokenHandler.token。难道我做错了什么? 问题答案: 首先,您必须标记文本。这看似微不足道(在任何空格处分割都可以

  • 我想从数据帧中的文本中提取特定的单词。这些单词我已经输入到字典的列表中,它们属于某些类别(键)。由此,我想创建与存储单词的类别相对应的列。和往常一样,最好用例子来说明: 我有一个数据框: 它创建表: 还有一本我想从中提取的分类词词典。这些单词都是没有符号的自然语言单词,可以包括短语,例如本例中的“alloy wheels”(这不一定是字典,我只是觉得这是最好的方法): 根据这个,我想创建一个如下所