Можно ли решить проблему классификации настроений с помощью регрессии? - PullRequest
0 голосов
/ 07 января 2020

У меня есть набор данных твитов, где каждый твит имеет средний показатель достоверности. Например,
Tweet Average Confidence Standard Deviation

too much thoughts inside his headdd we can t even imagine 0.3 0.163951

His ass need to stay up 0.8 0.161962

First time I heard his name in camp, he seems amazing 0.19 0.181962

Среднее значение доверия - это среднее значение доверительных вероятностей, прогнозируемых несколькими контролируемыми моделями для определенного c экземпляра, принадлежащего положительному классу.

Стандартное отклонение стандартное отклонение для доверия от среднего значения доверия для конкретного экземпляра.

Если я рассматриваю это как задачу регрессии, как обрабатывать данные с несколькими метками

РЕДАКТИРОВАТЬ Data set

1 Ответ

0 голосов
/ 12 января 2020

Еще не поняла ваш вопрос, поэтому ответила так, как мне казалось:)

В основном оценка (в вашем случае average) используется одна в анализе настроений для классифицируйте хорошие-плохие предложения (данные), выберите порог, который даст наилучшие результаты классификации, скажем, 0.6 так

if score >= 0.6
  classify as GOOD
else
  classify as BAD

Я предлагаю посмотреть, достаточно ли этот простой подход для ваших требований

В случае, если вы хотите классифицировать, используя больше переменных (информации), например, «среднее значение» and std`, вы можете использовать другую модель классификации (например, logisti c -regression , деревья решений , svm и более ...)

Если вы хотите использовать регрессионный подход, я предлагаю logisti c регрессия (это довольно прямолинейно)

, потому что ваша текущая модель состоит только из 2 переменных average и std a svm , может дать лучшие результаты (в основном это проецирует данные на более высокое измерение и делает классификация там )

имейте в виду, что все методы (возможно, кроме деревьев решений и т. Д.) Будут выводить другую оценку, например, вероятность классификации между 0 до 1, поэтому в конце всегда должны применяться пороговые значения

...