当前位置: 首页 > 知识库问答 >
问题:

基于自定义语料库的NLTK或Stanford-NER命名实体识别

乜飞航
2023-03-14

我正在尝试使用自定义NE(命名实体)字典在印度训练NER模型以进行分块。我分别引用NLTK和Stanford NER:

  1. NLTK

我找到了nltk。大块命名为_实体。NEChunkParserNEChunkParser能够在自定义语料库上进行训练。然而,文档或源代码注释中没有指定训练语料库的格式。

在哪里可以找到NLTK中NER的自定义语料库指南?

根据这个问题,斯坦福大学NER的FAQ给出了如何训练定制NER模型的方向。

主要问题之一是默认的斯坦福NER不支持印度语。那么,将印度NER语料库提供给模型是否可行?

共有1个答案

闻人飞白
2023-03-14

您的训练语料库需要位于. tsv文件扩展名中。

文件应该是这样的:

John PER在英特尔组织工作

这只是为了表示数据,因为我不知道您的目标是哪种印度语言。但您的数据必须始终是Tab分隔值。首先是令牌和其他值及其关联的标签。

我通过构建我的自定义数据(虽然是英文的)尝试了NER,并构建了一个模型

所以我猜印度语言也很有可能。

 类似资料:
  • 我正在进行我目前的毕业项目,名为“土耳其实体识别”。当我使用人名和地点(有时地点可以是不同的语言,例如塔克西姆/伊斯坦布尔的希尔顿酒店)时,识别器应该捕捉到土耳其语单词。我需要在我的数据集中添加“Hotel”,该数据集充满了特定的位置标签,如Hotel、Restaurant或Mall。但说到组织名称标签。我需要找到一个关于乐队、产品、公司名称的好数据集,但我不知道如何找到或收集这个数据集 在斯坦福

  • 我尝试过很多NER工具(OpenNLP、斯坦福NER、LingPipe、Dbpedia Spotlight等)。 但我一直回避的是一个基于地名录/词典的NER系统,在该系统中,我的自由文本与预定义实体名称列表匹配,并返回可能的匹配项。 这样我就可以拥有各种列表,如PERSON、ORGANIZATION等。我可以动态更改列表并获得不同的提取。这将大大减少训练时间(因为它们中的大多数都基于最大熵模型,

  • 我正在编写一些代码来执行命名实体识别(NER),这对于英文文本来说非常好。然而,我希望能够将NER应用于任何语言。为此,我想1)识别文本的语言,然后2)将NER应用于识别的语言。对于第2步,我怀疑A)将文本翻译成英语,然后应用NER(英语),或B)将NER应用于所识别的语言。 以下是我目前掌握的代码。我想让NER在这种语言首次被识别后,为text2或任何其他语言工作: 有人有这方面的经验吗?非常感

  • 我正在尝试为产品名称及其型号构建一个自定义命名实体提取器。 我的用例包含这样的句子:“微软使用了ABC-300产品,并将其与ASQ集成”。上述句子中提到的产品是:ABC-300和ASQ 我已经尝试使用Stanford和Spacy NER,两者的准确性都低于预期。 是否有任何数据集包含段落或句子中的产品名称,我可以用于训练自定义NER模型?训练的句子可以简单也可以复杂。任何类型的数据都很有用。 关于

  • 问题内容: 我遇到了一个与正则表达式和Python有关的问题。 我想创建一个自定义分类语料库,并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想有两个类别,“ pos”和“ neg”。正文件全部位于一个目录中,而负文件均位于单独的目录中。 如何使用加载并标记pos目录中的所有肯定文件,并对否定文件执行相同的操作? 注意:设置与语料库()完全相同。 问题答案: 这是我的问题的答案。由于我一直在考虑

  • 问题内容: 我已经创建了自己的NER模型与斯坦福大学“斯坦福大学NER”软件,并按照这些方向。 我知道CoreNLP按照以下顺序开箱即用地加载了三个NER模型: 我现在想将我的NER模型包括在上面的列表中,并先用NER模型标记文本。 我已经找到了关于该主题的两个以前问题,它们是“使用自定义NER模型的Stanford OpenIE[”和“为什么Stanford CoreNLP NER注释器默认加载