В nlp это обычно называется анализом настроений. Прежде всего, поиск положительных или отрицательных слов может быть сложной задачей из-за двусмысленности. В обзорах Amazon у вас также есть рейтинг - это означает, что ваши данные помечены (так, что оценка в 1 звезду означает, что обзор отрицательный, а оценка в 5 звезд - положительный отзыв).
Я предлагаю вместо поиск слов, которые положительно коррелируют с настроением, чтобы удалить слова, не влияющие на настроение. т.е. очистка данных. в nlp наиболее распространенными способами являются остановка и удаление стоп-слов. после того, как вы сделали эти два, вы бы удалили большую часть шума. Кроме того, вы можете извлечь выгоду из извлечения функций из данных, общая функция называется tf-idf.