Могу ли я добавлять и удалять функции из CountVectorizer вручную? - PullRequest
0 голосов
/ 26 мая 2019

Я занимаюсь классификацией текста и использую наивный байес с CountVectorizer.Я ищу прочь добавить и удалить функции вручную.может быть, я могу удалить функции с помощью stop_words (это лучший способ?), но я не смог найти способ добавить функции.если бы я использовал параметр 'словарь', то из текста не было бы извлечено ни одной функции, кроме тех, которые присутствуют в словаре.и это проблема

1 Ответ

0 голосов
/ 26 мая 2019

Да, удаление функций с помощью stop_words является наилучшим способом сохранения согласованности результатов.Вы также можете выполнить обход и удалить данные вручную, но это будет то же самое, что удалить их с помощью stop_words.Чтобы добавить элементы к stop_word в sklearn, сделайте это.

from sklearn.feature_extraction import text 
stop_words = text.ENGLISH_STOP_WORDS.union(additional_stop_words)
...