СКО в наивном байесовском классификаторе - PullRequest
1 голос
/ 22 ноября 2011

У меня есть очень простой вопрос о расчете RMSE в сценарии классификации NB. Мои тренировочные данные X содержат около 1000 с лишним отзывов с оценками в [1,5], которые представляют собой ярлыки класса Y. Так что я делаю что-то вроде этого:

model = nb_classifier_train(trainingX,Y)
Yhat = nb_classifier_test(model,testingX)

Мои данные тестирования содержат около 400 с лишним обзоров с отсутствующими оценками (чьи ярлыки / рейтинги мне нужно предсказать.

RMSE = sqrt(mean((Y - Yhat).^2))

Что такое Y в этом сценарии? Я понимаю, что RMSE рассчитывается с использованием разницы между прогнозируемыми и фактическими значениями. Каковы фактические значения здесь? Или чего-то не хватает?

1 Ответ

1 голос
/ 22 ноября 2011

Y в данном случае - это метки для ваших данных обучения, поэтому вычисляемая RMSE не имеет особого смысла, так как вы делаете прогноз на тестовых примерах и сравниваете с метками обучения. На самом деле нет никаких причин, по которым векторы Y и Yhat были бы одинаковой длины. Вместо этого вам следует заменить Y на ваши тестовые метки, а если у вас нет тестовых меток, то у вас просто нет возможности рассчитать свою тестовую ошибку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...