В настоящее время я работаю над проектом интерактивного выбора функций в сочетании с анализом настроений в Twitter. В этом проекте мы хотим использовать Da sh, чтобы пользователи могли решить, какие функции они хотят удалить / оставить, чтобы улучшить классификацию на положительные или отрицательные твиты.
Я провел общий анализ. Теперь я хотел расширить анализ дополнительными функциями, чтобы пользователь мог выбрать, какие функции должны go в прогнозе. (В этом анализе мы используем наивный байесовский классификатор, и набор данных уже помечен) Дополнительные функции, которые должны быть доступны, - это те из этой ветки здесь:
Полезные функции Twitter Sentiments Analysis
Но я действительно не знаю, как именно мне добавить эти особенности в анализ. Моя первоначальная идея была:
- Освободите твиты от ненужных символов, таких как @mentions, знаки препинания, "&" - строки и т. Д. c.
- Проверяйте каждый твит на наличие смайликов, отрицания слова, интенсивные слова ... и, в зависимости от содержания, добавьте определенное значение в каждый соответствующий столбец для каждой функции (пример: смайлик ":)" имеет значение "0,5", а ":(" имеет значение «-0,5»)
- После того, как каждый твит был проверен на наличие этих функций, вычисляется сумма всех этих значений для каждого твита, и анализ будет расширен этим дополнительным значением
- Вкл. на панели инструментов пользователь может установить фильтры и решить, не должны ли определенные функции влиять на прогноз (например, если пользователь хочет удалить смайлики из прогноза, они будут отключены для следующего прогноза, пока пользователь снова не активирует смайлики)
Я не совсем уверен, подходит ли этот подход или вообще работает. И когда я хочу следовать такому подходу: есть ли какие-либо словари / библиотеки, которые помогают с оценкой смайликов или отрицательных слов? И как я могу включить униграммы и биграммы?
Я благодарен за каждый ввод, подсказку, совет или другую идею :)