Изначально вы можете сэкономить время, используя nlp.tokenizer.pipe()
для обработки ваших текстов:
for doc in nlp.tokenizer.pipe(list_skills):
matcher.add(label, None, doc)
Это просто токенизация, что намного быстрее, чем запуск полного конвейера en
. Если вы используете attr
настройки с PhraseMatcher
, вам может потребоваться nlp.pipe()
вместо этого, но в этом случае вы должны получить ошибку.
Вы можете выбрать PhraseMatcher
для сохранения это на диск. Разборка не очень быстрая, потому что она должна реконструировать некоторые внутренние структуры данных, но она должна быть немного быстрее, чем создавать PhraseMatcher
с нуля.