Spacy дает имена как 2 токена -> name, s. Как я могу объединить эти два токена? Какое правило определяет разделение "s", инфиксных или других?
Для spacy v2.2.3 + вы можете использовать nlp.tokenizer.explain(), чтобы увидеть, какие настройки токенизатора приводят к определенным токенам:
nlp.tokenizer.explain()
import spacy nlp = spacy.blank("en") nlp.tokenizer.explain("name's") # [('TOKEN', 'name'), ('SUFFIX', "'s")]
Для Engli sh, варианты 's совпадают с настройкой suffix_search. Вы можете изменить регулярное выражение суффикса, чтобы изменить это для токенизатора: https://spacy.io/usage/linguistic-features#native -tokenizer-adds
's
suffix_search