Я хотел бы добавить и обновить сущности в NER в существующей большой английской языковой модели, поставляемой с spaCy. Чтобы избежать «катастрофической проблемы с обучением», документы предлагают включать аннотации существующих сущностей при переобучении модели. В дополнение к использованию некоторых новых помеченных примеров из моего текста, моя идея состоит в том, чтобы включить образцы исходных обучающих данных, чтобы максимально сохранить производительность на начальных объектах.
Я видел ссылку на набор данных Википедии в этот вопрос . Но мне было интересно, есть ли центральное репо для моделей, поставляемых с spaCy?
Большое спасибо,
Обновление:
Итак, один из вариантов, который я видел, использовался: 1) применить предварительно обученный NER для прогнозирования сущностей в новых текстах, 2) пометить некоторое количество ваших новых классов в новых текстах, 3) обучить обновить модель используя смесь предсказанных и помеченных объектов. Однако я не решаюсь использовать этот подход, поскольку нет никакой гарантии, что предсказанные объекты верны, и поэтому ухудшают модель.
Детали модели на github дают некоторые указания. Для модели en_core_web_lg-2.1.0 ссылочными источниками являются OntoNotes 5 для текстовых аннотаций и Common Crawl для Glove. Мне все еще интересно, если текстовые аннотации доступны там, они были бы очень полезны при обновлении моделей на обучение.