Анализ настроений - это топика c НЛП (обработка естественного языка). Что вас интересует, так это НЛП, который является одной из многих интересных отраслей машинного обучения.
Ваш подход к оценке полярности твита верен. Так как у вас есть 3 разных кандидата ака. ярлыки, это более интересная проблема.
Я бы сохранял массив чувств длины 3 для каждого твита, чтобы вычислить весовые коэффициенты для каждого кандидата. Например; твит типа "А это плохо. Б будет гораздо лучше! Но тоже C может тоже?" может выдать [-1, 0,8, 0,4].
Для этого вам понадобится корпус . Корпус, то есть ваш набор данных, должен содержать твиты и метки для каждого твита, чтобы ваша модель машинного обучения могла учиться на этих твитах.
Существует множество способов построить модель машинного обучения и обучить ее с помощью вашего набора данных. Это топология науки о данных. Исследователи данных пытаются улучшить некоторые показатели эффективности, чтобы улучшить свою модель.
Самым простым будет что-то вроде: разобрать все слова из твита, увеличить их значения на карте ha sh с метками и нормализовать. Теперь у вас есть карта ha sh, содержащая значение настроения для каждого слова.
Но в действительности это не сработает, так как выбросы и отсутствие набора данных повлияют на ваш результат. Поэтому вам нужно посмотреть на свои данные, проблему и выбрать правильную модель машинного обучения. Посмотрите эту статью , чтобы узнать больше о построении классификатора настроений.