Сначала вам нужно убедиться, что у вас есть достаточно данных о вашем новом домене. Если вы хотите иметь распознаватель именованных сущностей, вам нужны тексты, помеченные именованными сущностями. Если вы хотите иметь парсер, вам нужны тексты с аннотациями зависимостей. Если вы хотите использовать POS-тегер, вам нужны тексты, помеченные POS-тегами и т. Д. c.
. Затем вы можете создать новую пустую модель, добавить к ней нужные вам компоненты и начать их обучение. :
nlp = spacy.blank("fr")
ner = nlp.create_pipe("ner")
nlp.add_pipe(ner)
ner.add_label("MY_DOMAIN_LABEL")
nlp.begin_training()
nlp.update(texts, annotations, drop=0.2)
Этот фрагмент кода не является полным, потому что он действительно зависит от того, что именно вы хотите сделать. Вы можете найти более полные фрагменты в документации: https://spacy.io/usage/training
Вас также может заинтересовать утилита командной строки для обучения новых моделей, см. https://spacy.io/api/cli#train