问题：

准确性：ANNIE vs Stanford NLP vs OpenNLP with UIMA

鲜于华容

2023-03-14

我的工作是计划使用一个UIMA集群来运行文档，以提取命名实体等等。据我所知，UIMA附带的NLP组件非常少。我已经测试GATE有一段时间了，我对它相当满意。它在普通文本中没有问题，但当我们通过一些有代表性的测试数据运行它时，精确度会下降。我们内部拥有的文本数据有时全是大写，有时全是小写，或者是同一文档中两者的混合。即使使用ANNIE的all caps规则，其准确性仍有许多有待提高的地方。我最近听说过斯坦福NLP和OpenNLP，但还没有时间对它们进行广泛的培训和测试。在准确性方面，这两者与安妮相比如何？他们是否像盖特一样与UIMA合作？

提前谢谢。

共有3个答案

冯宏浚

2023-03-14

我想再补充一点。UIMA和GATE是创建自然语言处理（NLP）应用程序的两个框架。但是，名称实体识别（NER）是一个基本的NLP组件，您可以找到NER的实现，独立于UIMA和GATE。好消息是您通常可以在UIMA和GATE中找到一个不错的NER的包装器。为了清楚起见，让我们看一下这个例子：

OpenNLP NER

GATE中OpenNLP NER的包装器

UIMA中OpenNLP NER的包装器

斯坦福大学的NER组件也是如此。

回到你的问题，这个网站列出了最先进的技术：http://www.aclweb.org/aclwiki/index.php?title=Named_Entity_Recognition_（最新技术）

例如，在MUC-7比赛中，名为LTG的最佳参与者获得了93.39%的准确率。

http://www.aclweb.org/aclwiki/index.php?title=MUC-7（最新技术）

请注意，如果您想使用这种are实现状态，您可能会对其许可证有一些问题。

解明辉

2023-03-14

为了记录对UIMA角度的回答：对于斯坦福NLP和OpenNLP，DKPro核心项目提供了优秀的UIMA分析引擎打包。

王庆

2023-03-14

对这些系统的性能给出一般估计是不可能/合理的。正如你所说，在你的测试数据上，准确性会下降。这有几个原因，一个是文档的语言特征，另一个是你期望看到的注释的特征。Afaik对于每个NER任务都有相似但仍然不同的注释指南。

话虽如此，关于你的问题：

ANNIE是我能找到的Java中唯一一个基于规则的免费开源NER系统。它是为新闻文章而写的，我想是为MUC 6任务而调整的。这有助于证明概念，但有点过时。主要的优点是，您可以在不了解任何机器学习、nlp或java知识的情况下开始改进它。学习日语，试试看。

OpenNLP、Stanford NLP等默认情况下都有新闻文章的模型，并且表现比ANNIE好（只看结果，从未在大型语料库上测试过）。与OpenNLP相比，我更喜欢斯坦福解析器，同样只看文档，主要是新闻文章。

如果不知道你的文件是什么样子，我真的说不出更多了。你应该决定你的数据是否适合规则，或者你采用机器学习的方式，使用OpenNLP、斯坦福解析器或伊利诺伊标记器或其他任何东西。斯坦福解析器似乎更适合于倾注数据、训练和生成结果，而OpenNLP似乎更适合于尝试不同的算法、处理参数等。

对于你关于UIMA争端的GATE，我尝试了这两种方法，并为GATE找到了更多的病毒社区和更好的文档。很抱歉给出个人意见：）

准确性：ANNIE vs Stanford NLP vs OpenNLP with UIMA

共有3个答案

相关问答

相关文章

相关阅读

相关工具

相关文档