将Spacy培训数据格式转换为Spacy CLI格式（用于空白NER）

梁丘成和

2023-03-14

问题内容：

这是经典的训练格式。

TRAIN_DATA = [
    ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
    ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}),
]

我曾经使用代码进行训练，但是据我了解，使用CLI训练方法会更好。但是，我的格式是这样。

我已经找到了用于这种类型转换的代码片段，但是每个代码片段都在执行spacy.load('en')而不是冒空-这让我想，他们是在训练现有模型而不是冒空吗？

这个块看起来很简单：

import spacy
from spacy.gold import docs_to_json
import srsly

nlp = spacy.load('en', disable=["ner"]) # as you see it's loading 'en' which I don't have
TRAIN_DATA = #data from above

docs = []
for text, annot in TRAIN_DATA:
    doc = nlp(text)
    doc.ents = [doc.char_span(start_idx, end_idx, label=label) for start_idx, end_idx, label in annot["entities"]]
    docs.append(doc)

srsly.write_json("ent_train_data.json", [docs_to_json(docs)])

运行此代码会抛出： 找不到模型“ en”。它似乎不是快捷方式链接，Python包或数据目录的有效路径。

我很困惑如何spacy train在空白处使用它。只是使用spacy.blank('en')？但是disable=["ner"]标志呢？

编辑：

如果我spacy.blank('en')改为尝试，则收到 无法从spacy.lang导入语言目标：没有名为“ spacy.lang.en”的模块

编辑2 ：我尝试加载en_core_web_sm

nlp = spacy.load('en_core_web_sm')

docs = []
for text, annot in TRAIN_DATA:
    doc = nlp(text)
    doc.ents = [doc.char_span(start_idx, end_idx, label=label) for start_idx, end_idx, label in annot["entities"]]
    docs.append(doc)

srsly.write_json("ent_train_data.json", [docs_to_json(docs)])

TypeError：“ NoneType”类型的对象没有len（）

艾尔顿- print(text[start:end])

目标！FK Qarabag 1，地拉那Partizani0。菲利普·奥佐比奇-FK Qarabag-头球从禁区中央到球门中央。助攻-
艾尔顿-print(text)

无-doc.ents =...行

TypeError：“ NoneType”类型的对象没有len（）

编辑3
：从伊内斯的评论

nlp = spacy.load('en_core_web_sm')

docs = []
for text, annot in TRAIN_DATA:

    doc = nlp(text)

    tags = biluo_tags_from_offsets(doc, annot['entities'])
    docs.append(doc)

srsly.write_json(train_name + "_spacy_format.json", [docs_to_json(docs)])

这创建了json，但在生成的json中看不到任何标记的实体。

问题答案：

编辑3已结束，但是您缺少将实体添加到文档中的步骤。这应该工作：

import spacy
import srsly
from spacy.gold import docs_to_json, biluo_tags_from_offsets, spans_from_biluo_tags

TRAIN_DATA = [
    ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
    ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24, "LOC")]}),
]

nlp = spacy.load('en_core_web_sm')
docs = []
for text, annot in TRAIN_DATA:
    doc = nlp(text)
    tags = biluo_tags_from_offsets(doc, annot['entities'])
    entities = spans_from_biluo_tags(doc, tags)
    doc.ents = entities
    docs.append(doc)

srsly.write_json("spacy_format.json", [docs_to_json(docs)])

最好添加一个内置函数来执行此转换，因为通常希望从示例脚本（这只是简单的演示）转移到火车CLI。

编辑：

您还可以略过间接使用内置BILUO转换器，而使用上面的功能：

    doc.ents = [doc.char_span(start_idx, end_idx, label=label) for start_idx, end_idx, label in annot["entities"]]

将Spacy培训数据格式转换为Spacy CLI格式（用于空白NER）

相关阅读

相关文章

相关问答

相关工具

相关文档