list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))
дает в результате:
['you', 'he', 'she', 'it', 'we', 'you', 'they']
Это нормально? Есть ли слова, которые он пропускает? Стоит ли использовать другой токенизатор?
БОНУСНЫЙ ВОПРОС: Что означает параметр "deacc = True"?