Еще не поняла ваш вопрос, поэтому ответила так, как мне казалось:)
В основном оценка (в вашем случае average
) используется одна в анализе настроений для классифицируйте хорошие-плохие предложения (данные), выберите порог, который даст наилучшие результаты классификации, скажем, 0.6
так
if score >= 0.6
classify as GOOD
else
classify as BAD
Я предлагаю посмотреть, достаточно ли этот простой подход для ваших требований
В случае, если вы хотите классифицировать, используя больше переменных (информации), например, «среднее значение» and
std`, вы можете использовать другую модель классификации (например, logisti c -regression , деревья решений , svm и более ...)
Если вы хотите использовать регрессионный подход, я предлагаю logisti c регрессия (это довольно прямолинейно)
, потому что ваша текущая модель состоит только из 2 переменных average
и std
a svm , может дать лучшие результаты (в основном это проецирует данные на более высокое измерение и делает классификация там )
имейте в виду, что все методы (возможно, кроме деревьев решений и т. Д.) Будут выводить другую оценку, например, вероятность классификации между 0
до 1
, поэтому в конце всегда должны применяться пороговые значения