Я использую sklearn.feature_extraction.text.TfidfVectorizer
. Я обрабатываю текст. Кажется стандартным удалить стоп-слова. Тем не менее, мне кажется, что если у меня уже есть потолок частоты документа, то есть я не буду включать токены, которые находятся в большом проценте документа (например, max_df=0.8
), удаление стоп-слов не кажется необходимым. Теоретически, стоп-слова - это слова, которые часто встречаются и должны быть исключены. Таким образом, нам не нужно спорить о том, что включить в наш список стоп-слов, верно? Насколько я понимаю, существуют разногласия по поводу того, какие слова используются достаточно часто, поэтому их следует считать стоп-словами, верно? Например, scikit-learn включает слово «согласно» в свой встроенный список стоп-слов на английском языке.