当前位置: 首页 > 知识库问答 >
问题:

以en_core_web_sm为基础模型训练Spacy NER模型

冷吉星
2023-03-14

我正在使用Spacy来训练我的NER模型和新实体,我正在使用en_core\u web\u sm模型作为我的基础模型,因为我还想检测基本实体(ORGPERSONDATE,等等)。我在未标记的句子上运行了en_core_web_smmodel,并将它们的注释添加到我的训练集中。

完成之后,现在我想为新实体创建训练数据。例如,我想添加一个名为FRUIT的新实体。我有一大堆句子(除了那些之前用en_core\u web\u sm注释的句子)要注释。例如:

“詹姆斯喜欢吃苹果”。

我的问题是:我是否仍然需要将“James”注释为PERSON,以及将“apples”注释为FRUIT?或者我是否不需要这样做,因为我已经有了另外一组句子,它们是使用前面的en_core_web_sm模型用PERSON实体注释的。

共有1个答案

杨昊
2023-03-14

简短回答:

是的,如果你想保持模型的精确性。

长答案:

NER是使用机器学习算法实现的。这些根据学习的分布和周围的令牌将令牌分类为实体。

因此,如果您提供了多个带注释文本的示例,而没有将一个单词(标记)标记为它通常表示的特定实体,那么您可能会通过向模型提供该标记不重要的示例来影响模型精度。

 类似资料:
  • 在之前的描述中,我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例,你惊奇的发现你可以优化回归系统,改进数字图像的分类器,你甚至可以零基础搭建一个垃圾邮件的分类器,但是你却对它们内部的工作流程一无所知。事实上,许多场合你都不需要知道这些黑箱子的内部有什么,干了什么。 然而,如果你对其内部的工作流程有一定了解的话,当面对一个机器学习任务时候,这些理论可以帮助你快速的找到恰

  • 在之前的描述中,我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例,你惊奇的发现你可以优化回归系统,改进数字图像的分类器,你甚至可以零基础搭建一个垃圾邮件的分类器,但是你却对它们内部的工作流程一无所知。事实上,许多场合你都不需要知道这些黑箱子的内部有什么,干了什么。 然而,如果你对其内部的工作流程有一定了解的话,当面对一个机器学习任务时候,这些理论可以帮助你快速的找到恰

  • 消息 内部全部使用 SofaRequest 和 SofaResponse 进行传递。 如果需要转换为其它协议,那么在真正调用和收到请求的时候,转换为实际要传输的对象。 可以对 SofaRequest 和 SofaResponse 进行写操作的模块: - Invoker - Filter - ServerHandler - Serialization 对消息体是只读的模块: - Cluster -

  • 大家已经提到了这个,这个,这个和这个,但是仍然发现很难建立一个自定义的名字查找器模型。。以下是代码: 我在尝试执行命令行时不断出现错误: 让我把论点1改为 然后我收到一个运行时错误,说你不能强制转换这个。这是我在线程“main”中强制转换 第二个问题是: 给出一个语法错误。不确定这里出了什么问题。如果有任何帮助,我将不胜感激,因为我已经尝试了上述链接上的所有代码片段。 祝好

  • 我试图用下面的代码训练模型,但我一直在方法上收到错误,它告诉我将更改为。为什么?

  • 我可以在AWS Sagemaker中通过评估模型来训练多个模型train.py脚本,以及如何从多个模型中获取多个指标? 任何链接、文档或视频都很有用。