Может ли список стоп-слов быть удален из TfidfVectorizer во вмешательстве - PullRequest
0 голосов
/ 04 ноября 2019

У меня довольно большой текстовый корпус и sklearn создали 2 миллиона (нечастых) стоп-слов, нужно ли мне сохранить их на диске, можно просто удалить список стоп-слов?

1 Ответ

0 голосов
/ 06 ноября 2019

Вы можете установить параметр stop_words как None, если хотите удалить стоп-слова из словаря.

С другой стороны, если вы хотите удалить менее часто встречающиеся слова, используйте min_df параметр в TfidfVectorizer.

Значение по умолчанию min_df равно 0, если вы установите значениепримерно как 0,2 или около того, размер словарного запаса значительно уменьшится.

...