Я пытаюсь обучить наивного байесовского классификатора положительными / отрицательными словами, извлеченными из настроения. пример:
Мне нравится этот фильм :))
ненавижу когда идет дождь :(
Идея в том, что я извлекаю положительные или отрицательные предложения на основе использованных эмоций, но для того, чтобы обучить классификатор и сохранить его в базе данных.
Проблема в том, что у меня есть более 1 миллиона таких предложений, поэтому, если я буду тренировать их слово в слово, база данных пойдет на бросок. Я хочу удалить все не относящиеся к делу слова, например, «I», «this», «when», «it», чтобы количество запросов к базе данных уменьшалось.
Пожалуйста, помогите мне в решении этой проблемы, чтобы предложить мне лучшие способы сделать это
Спасибо