Почему токенизатор gensim simple_preprocess Python пропускает токен "i"? - PullRequest
0 голосов
/ 06 апреля 2020
list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))

дает в результате:

['you', 'he', 'she', 'it', 'we', 'you', 'they']

Это нормально? Есть ли слова, которые он пропускает? Стоит ли использовать другой токенизатор?

БОНУСНЫЙ ВОПРОС: Что означает параметр "deacc = True"?

1 Ответ

1 голос
/ 06 апреля 2020

Как @ user2357112-support-monica упоминает в своем комментарии, это является частью разработанного поведения simple_preprocess(), согласно его документации , для отбрасывания любых токенов короче min_len=2 символов.

В этой же документации также дан ответ на ваш "вопрос о бонусе":

  • dea cc (bool, необязательно) - убрать знаки ударения из токенов, использующих deaccent () ?

(Функция deaccent() - это еще одна служебная функция, задокументированная по ссылке, которая делает именно то, что предлагает название и документация : удаляет знаки ударения из букв, так что, например, 'é' становится просто 'e'.)

...