Как spacy разделяет "s"? - PullRequest
0 голосов
/ 17 июня 2020

Spacy дает имена как 2 токена -> name, s. Как я могу объединить эти два токена? Какое правило определяет разделение "s", инфиксных или других?

1 Ответ

0 голосов
/ 18 июня 2020

Для spacy v2.2.3 + вы можете использовать nlp.tokenizer.explain(), чтобы увидеть, какие настройки токенизатора приводят к определенным токенам:

import spacy
nlp = spacy.blank("en")

nlp.tokenizer.explain("name's")
# [('TOKEN', 'name'), ('SUFFIX', "'s")]

Для Engli sh, варианты 's совпадают с настройкой suffix_search. Вы можете изменить регулярное выражение суффикса, чтобы изменить это для токенизатора: https://spacy.io/usage/linguistic-features#native -tokenizer-adds

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...