Я думаю, что вы можете попробовать много вещей здесь (однако люди обычно классифицируют обзор как целое, а не слова):
- Попробуйте кластеризацию Брауна для кластеризации ваших слов, тогда, если у вас есть ярлыки, вы можетелучше оценивать качество кластеризации слов.
- Создать метку для слов в зависимости от метки обзора, где они находятся (положительные или отрицательные), однако это может быть неточным, поскольку иногда отрицательный смысл представляет собой композицию слов (ek not like).
- Вы также можете использовать ваши метки для получения отрицательных и положительных слов по их частоте в отрицательных и положительных документах.
Существует множество библиотек для классификации настроений: scikit-learn, TensorFlow, .... ect.