Вы можете установить параметр stop_words
как None
, если хотите удалить стоп-слова из словаря.
С другой стороны, если вы хотите удалить менее часто встречающиеся слова, используйте min_df
параметр в TfidfVectorizer
.
Значение по умолчанию min_df
равно 0, если вы установите значениепримерно как 0,2 или около того, размер словарного запаса значительно уменьшится.