我正在尝试使用NLP技术在下面的文本行中查找课程。 这是我的错 我可以从这一行中提取课程吗? 在我真正的项目中,我将得到很多文件,我需要从这些文件中获得课程名称。 感谢您的帮助!
我注意到一个完整的语法分析在动词短语中嵌套了其他短语,比如这里(尽管名词短语似乎是独立的) 当我通过ApacheOpenNLP运行一个简单的分块时,动词短语是独立的,如下所示 尽管如此,ApacheOpenNLPS完全解析也嵌套了动词短语。(https://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#t
我有一个使用keras使用keras.preprocessing.text.Tokenizer构建的自然语言处理模型。我知道我可以通过在导入旧模型后调用它的来重新训练旧模型,但我也需要更新我的标记器。标记器做一些事情:通过空格标记字符串,消除符号,转换为较低值,在创建字典后只保留最常用的标记,散列标记并在句子太短时附加0。 Ex: 这个过程需要能够将序列输入nlp网络。当我尝试自动重新训练时,问题
我使用StanfordNLP来标记用智能手机编写的一组消息。这些文本有很多拼写错误,不遵守标点符号规则。通常,空格缺失会影响标记化。 例如,以下句子漏掉了“California.This”和“university,founded”中的空格。 斯坦福大学位于加利福尼亚州,这所大学是一所伟大的大学,创建于1891年。 标记器返回: {“斯坦福”、“大学”、“是”、“位于”、“加利福尼亚州”。这个”、“
有人能让我知道核心NLP的区别吗 http://stanfordnlp.github.io/CoreNLP/ 斯坦福大学NLP http://nlp.stanford.edu/
斯坦福NLP中的和,比如之间有什么区别?
我的工作是计划使用一个UIMA集群来运行文档,以提取命名实体等等。据我所知,UIMA附带的NLP组件非常少。我已经测试GATE有一段时间了,我对它相当满意。它在普通文本中没有问题,但当我们通过一些有代表性的测试数据运行它时,精确度会下降。我们内部拥有的文本数据有时全是大写,有时全是小写,或者是同一文档中两者的混合。即使使用ANNIE的all caps规则,其准确性仍有许多有待提高的地方。我最近听说
我正在为我的一个项目使用Apache OpenNLP。我正在创建一个新模型来识别位置,因为预训练模型(en-ner-location.bin)没有这个位置。 这是代码: } 到目前为止,它运行良好。 问题是我无法将其他位置添加到我创建的自定义模型中。所以,我浏览了OpenNLP-README文档。 在那里,它说,“注意:为了训练模型,您需要所有的训练数据。目前没有一种机制可以用额外的数据更新随项目
假设我们有一篇文章要注释。如果我们将文本作为一个非常长的句子而不是文档输入,斯坦福在注释一个长句子与循环遍历文档中的每个句子和最终所有结果之间有什么不同吗? 编辑:我运行了一个测试,似乎这两种方法返回了两个不同的NER集。我可能只是做错了,但这确实非常有趣,我很好奇为什么会发生这种情况。
我正在注释和分析一系列文本文件。 pipeline.annotate方法每次读取文件时都会变得越来越慢。最终,我得到了一个OutOfMemoryError。 管道初始化一次: 然后,我使用相同的管道实例处理每个文件(如SO和斯坦福大学在其他地方推荐的)。 明确地说,我希望问题出在我的配置上。但是,我确信失速和内存问题发生在pipeline.annotate(file)方法上。 在处理每个文件后,我
我使用斯坦福NLP很好。我用我所有的类制作了一个训练文件。它可以很好地识别测试行。但是如果我有一个其他行(这不是我训练过的任何类)怎么办。当该行未被任何类识别时,我可以要求算法返回null等吗?如果没有,你建议我用“其他”行创建一个“其他”类...但这可能是无限的。谢谢,Aryeh。
我正在为一个收藏建立一个文档相似性图。我已经做了所有基本的事情,比如标记化、词干分析、停止单词删除和单词袋表示来表示文档,并使用Jaccard系数计算相似度。我现在正在尝试提取命名实体,并评估这些实体是否有助于提高文档相似性图的质量。我花了很多时间寻找用于分析的基本事实数据集。我对消息理解会议(MUC)数据集非常失望。它们很难理解,需要充分的数据清理/处理,才能在不同的平台(如Scala)上使用
Standford Core NLP和GATE提供各种NLP操作,如NER、词性标注。有一些NLP操作,比如标记器、雪球词干分析器,可以作为UIMA组件使用。那么,UIMA是可以与StandfordCore NLP/GATE相媲美,还是可以用来包装管道中的此类API?
UIMA和StanfordNLP在流水线操作之后生成输出,比如如果我们想做词性标记,那么在输入文本中首先进行标记化,然后进行词性标记。 我想使用UIMA的标记化,并在Stanford CoreNLP的POS标记器中使用该标记。但是Stanford CoreNLP的POS标记器需要在POS标记器之前运行标记器。 那么,是否可以在同一管道中使用不同的API?是否可以同时使用UIMA标记器和Stanfo
我正在启动一个以情绪分析为中心的项目。具体来说,我们将对Twitter、Facebook、YouTube和其他社交网络数据进行情绪分析。 我知道Apache的OpenNLP。它看起来很棒,但我认为它对于我想做的事情来说有点重量级,除了它对Hadoop等的依赖。我以前没有使用过它,我对它的评估可能是错误的。 我在这个网站的其他地方看到过斯坦福NLP。我似乎无法从这个图书馆得到一个好的起点;一种教程。