Разве плохо удалять стоп-слова, когда я уже установил потолок для частоты документа? - PullRequest
1 голос
/ 11 июля 2019

Я использую sklearn.feature_extraction.text.TfidfVectorizer. Я обрабатываю текст. Кажется стандартным удалить стоп-слова. Тем не менее, мне кажется, что если у меня уже есть потолок частоты документа, то есть я не буду включать токены, которые находятся в большом проценте документа (например, max_df=0.8), удаление стоп-слов не кажется необходимым. Теоретически, стоп-слова - это слова, которые часто встречаются и должны быть исключены. Таким образом, нам не нужно спорить о том, что включить в наш список стоп-слов, верно? Насколько я понимаю, существуют разногласия по поводу того, какие слова используются достаточно часто, поэтому их следует считать стоп-словами, верно? Например, scikit-learn включает слово «согласно» в свой встроенный список стоп-слов на английском языке.

1 Ответ

0 голосов
/ 11 июля 2019

Вы правы.Это может быть определение стоп-слов.Однако не стоит забывать, что одной из причин удаления стоп-слов на первом этапе является предотвращение их подсчета и сокращение времени вычислений.

Обратите внимание, что ваша интуиция за стоп-словами верна.

...