Анализ настроений в Twitter: подход к созданию нескольких функций для выбора функций - PullRequest
0 голосов
/ 10 июля 2020

В настоящее время я работаю над проектом интерактивного выбора функций в сочетании с анализом настроений в Twitter. В этом проекте мы хотим использовать Da sh, чтобы пользователи могли решить, какие функции они хотят удалить / оставить, чтобы улучшить классификацию на положительные или отрицательные твиты.

Я провел общий анализ. Теперь я хотел расширить анализ дополнительными функциями, чтобы пользователь мог выбрать, какие функции должны go в прогнозе. (В этом анализе мы используем наивный байесовский классификатор, и набор данных уже помечен) Дополнительные функции, которые должны быть доступны, - это те из этой ветки здесь:

Полезные функции Twitter Sentiments Analysis

Но я действительно не знаю, как именно мне добавить эти особенности в анализ. Моя первоначальная идея была:

  1. Освободите твиты от ненужных символов, таких как @mentions, знаки препинания, "&" - строки и т. Д. c.
  2. Проверяйте каждый твит на наличие смайликов, отрицания слова, интенсивные слова ... и, в зависимости от содержания, добавьте определенное значение в каждый соответствующий столбец для каждой функции (пример: смайлик ":)" имеет значение "0,5", а ":(" имеет значение «-0,5»)
  3. После того, как каждый твит был проверен на наличие этих функций, вычисляется сумма всех этих значений для каждого твита, и анализ будет расширен этим дополнительным значением
  4. Вкл. на панели инструментов пользователь может установить фильтры и решить, не должны ли определенные функции влиять на прогноз (например, если пользователь хочет удалить смайлики из прогноза, они будут отключены для следующего прогноза, пока пользователь снова не активирует смайлики)

Я не совсем уверен, подходит ли этот подход или вообще работает. И когда я хочу следовать такому подходу: есть ли какие-либо словари / библиотеки, которые помогают с оценкой смайликов или отрицательных слов? И как я могу включить униграммы и биграммы?

Я благодарен за каждый ввод, подсказку, совет или другую идею :)

...