当前位置: 首页 > 知识库问答 >
问题:

自定义NER模型提取用于训练的关键字的子字符串

羊舌高爽
2023-03-14

我使用OpenNlp的训练API训练了一个自定义的NER模型,其中包含超过一百万个句子,用于识别我所教的技能。在测试过程中,我发现识别技能的模型和技能的子串。例如,我教过一项技能“核心Java”,如果句子中有“核心”一词,那么我的模型会将其识别为一项技能。我想避免这种情况。如果整个单词都在测试句子中,我只想识别整个单词“Core Java”。

如何改进我的自定义模型以获得上述结果?

共有1个答案

米楷
2023-03-14

听起来你需要提供更多的培训例子。

如果单词Core出现在您的培训数据中的唯一时间是作为短语Core Java的一部分,那么您的模型可能会了解到Core是技能名称的一部分,概率为100%,并且基于它知道的正确性。要解决这个问题,可以在不相关的地方添加更多的训练数据。例如:

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.
 类似资料:
  • 我正在尝试为多个实体训练自定义NER模型。以下是示例训练数据: 方法采用字符串参数。这个参数有什么用途?还有,我如何为多个实体(例如,在我的例子中,,,)训练一个模型 }

  • 大家已经提到了这个,这个,这个和这个,但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码: 我在尝试执行命令行时不断出现错误: 让我把论点1改为 然后我收到一个运行时错误,说你不能强制转换这个。这是我在线程“main”中强制转换 第二个问题是: 给出一个语法错误。不确定这里出了什么问题。如果有任何帮助,我将不胜感激,因为我已经尝试了上述链接上的所有代码片段。 祝好

  • 我的要求是像这样分析句子。“给我找一本饥饿的潮汐书。”或者“饥饿的潮水或破碎的镜子,哪一个更好。”饥饿的潮汐和破碎的镜子是书的名字,为此我需要创建一个自定义模型,在给定的令牌数组中找到书的标题。因此,稍后我可以根据给定的句子创建一个查询。请让我知道我如何做到这一点,或者如果有任何其他方法来分析这样的句子。

  • 我一直在尝试与斯坦福核心NLP合作。我希望训练我自己的NER模型。从论坛上的SO和官网上描述了如何使用一个属性文件来实现这一点。我将如何通过API实现它?。 怎么做

  • 我想训练用于提取人名的模型(NER系统的一部分),但我想使这个模型无大小写(我的意思是,该模型不会考虑字母大小写,大写字母和小写字母之间没有区别),因为我有嘈杂的文本。 那么训练步骤中是否有任何参数可以做到这一点,或者任何其他方式?

  • 我仍在学习Python和创建模型,对使用Spacy的NLP非常陌生。我曾经https://spacy.io/usage/training#ner培训Spacy现有的模式——en_core_web_sm。 我用我的领域特定实体训练了这个模型。 现在我假设我会在输出目录中找到一个模型文件。相反,我有4个子文件夹——词汇表、ner、标记器、解析器。还有2个文件meta.json和标记器。ner子文件夹有