Где находятся исходные данные обучения модели spaCy? - PullRequest
0 голосов
/ 02 мая 2019

Я хотел бы добавить и обновить сущности в NER в существующей большой английской языковой модели, поставляемой с spaCy. Чтобы избежать «катастрофической проблемы с обучением», документы предлагают включать аннотации существующих сущностей при переобучении модели. В дополнение к использованию некоторых новых помеченных примеров из моего текста, моя идея состоит в том, чтобы включить образцы исходных обучающих данных, чтобы максимально сохранить производительность на начальных объектах.

Я видел ссылку на набор данных Википедии в этот вопрос . Но мне было интересно, есть ли центральное репо для моделей, поставляемых с spaCy?

Большое спасибо,

Обновление:

Итак, один из вариантов, который я видел, использовался: 1) применить предварительно обученный NER для прогнозирования сущностей в новых текстах, 2) пометить некоторое количество ваших новых классов в новых текстах, 3) обучить обновить модель используя смесь предсказанных и помеченных объектов. Однако я не решаюсь использовать этот подход, поскольку нет никакой гарантии, что предсказанные объекты верны, и поэтому ухудшают модель.

Детали модели на github дают некоторые указания. Для модели en_core_web_lg-2.1.0 ссылочными источниками являются OntoNotes 5 для текстовых аннотаций и Common Crawl для Glove. Мне все еще интересно, если текстовые аннотации доступны там, они были бы очень полезны при обновлении моделей на обучение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...