Должна ли нотация именованного типа метки сущности в spacy соответствовать нотации аннотированного типа метки в обучающих данных? - PullRequest
0 голосов
/ 11 февраля 2020

Я хочу обучить NER-модель по spaCy в моем собственном корпусе, который был аннотирован через WebAnno. К сожалению, нотация одной категории NE в spaCy не совпадает с соответствующей нотацией в WebAnno: в WebAnno метка - «OTH», тогда как spaCy помечает ее как «MIS C» (семантически, это то же самое). Повлияет ли это на тренировочный процесс или на точность теста отрицательно? Нужно ли тренировать дополнительный NE типа «OTH» в этом случае? Спасибо за вашу помощь!

Используемая версия spaCy: 2.2.5

1 Ответ

0 голосов
/ 11 февраля 2020

Да, конечно, вы хотите, чтобы аннотации были выровнены. Если это одноразовая операция, проще всего решить проблему путем замены строки в ваших данных.

Более каноническим вариантом может быть TagMap: https://spacy.io/usage/adding-languages#tag -map . Цитата:

[...] вам необходимо определить, как [ваши теги] отображаются на набор тегов универсальных зависимостей.

Их пример:

from ..symbols import POS, NOUN, VERB, DET

TAG_MAP = {
    "NNS":  {POS: NOUN, "Number": "plur"},
    "VBG":  {POS: VERB, "VerbForm": "part", "Tense": "pres", "Aspect": "prog"},
    "DT":   {POS: DET}
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...