当前位置: 首页 > 知识库问答 >
问题:

用于评估命名实体识别的开源NLP工具的基本事实数据集

胡和煦
2023-03-14

我正在为一个收藏建立一个文档相似性图。我已经做了所有基本的事情,比如标记化、词干分析、停止单词删除和单词袋表示来表示文档,并使用Jaccard系数计算相似度。我现在正在尝试提取命名实体,并评估这些实体是否有助于提高文档相似性图的质量。我花了很多时间寻找用于分析的基本事实数据集。我对消息理解会议(MUC)数据集非常失望。它们很难理解,需要充分的数据清理/处理,才能在不同的平台(如Scala)上使用

我的问题在这里更具体

  1. 是否有关于开始使用MUC数据集的教程,可以更轻松地使用openNLP等开源NLP工具分析结果
  2. 还有其他可用的数据集吗?
  3. OpenNLP和Stanford Core NLP等工具采用的方法本质上是受监督的。正确吗?
  4. GATE是手动注释自己的文本语料库的绝佳工具,正确吗?
  5. 对于一个新的测试数据集(我手工创建的),我如何计算基线(词汇传输)或者我可以计算什么样的指标?

共有1个答案

李凯定
2023-03-14

首先,我对使用Jaccard系数计算相似性有一些担忧。我希望是TF。IDF和cosinus相似性可以提供更好的结果。

以下是对你问题的一些回答:

 类似资料:
  • 我正在尝试使用这个简短的实体识别教程来学习NER。但我无法成功运行代码。我在现场提供了一个入口。这里提到的txt文件。 我收到错误。 请帮帮我。先谢谢你。

  • 问题内容: 我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期 我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。 有什么建议吗? 问题答案: 顺便说一句,我最近遇到了OpenCalais,它似乎具有我要照顾的功能。

  • 我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”,该数据集充满了特定的位置标签,如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集,但我不知道如何找到或收集这个数据集 在斯坦福

  • 我尝试过很多NER工具(OpenNLP、斯坦福NER、LingPipe、Dbpedia Spotlight等)。 但我一直回避的是一个基于地名录/词典的NER系统,在该系统中,我的自由文本与预定义实体名称列表匹配,并返回可能的匹配项。 这样我就可以拥有各种列表,如PERSON、ORGANIZATION等。我可以动态更改列表并获得不同的提取。这将大大减少训练时间(因为它们中的大多数都基于最大熵模型,

  • 我正在尝试使用自定义NE(命名实体)字典在印度训练NER模型以进行分块。我分别引用NLTK和Stanford NER: NLTK 我找到了NEChunkParser能够在自定义语料库上进行训练。然而,文档或源代码注释中没有指定训练语料库的格式。 在哪里可以找到NLTK中NER的自定义语料库指南? 根据这个问题,斯坦福大学NER的FAQ给出了如何训练定制NER模型的方向。 主要问题之一是默认的斯坦福

  • 我想使用NLP工具从意大利文本中提取名称和数字。 遗憾的是,斯坦福德NLP和Apache OpenNLP都没有为意大利人提供模型。 我能找到一个,或者找到训练数据来制造一个吗?(至少15000句)