У меня есть очень простой вопрос о расчете RMSE в сценарии классификации NB. Мои тренировочные данные X содержат около 1000 с лишним отзывов с оценками в [1,5], которые представляют собой ярлыки класса Y.
Так что я делаю что-то вроде этого:
model = nb_classifier_train(trainingX,Y)
Yhat = nb_classifier_test(model,testingX)
Мои данные тестирования содержат около 400 с лишним обзоров с отсутствующими оценками (чьи ярлыки / рейтинги мне нужно предсказать.
RMSE = sqrt(mean((Y - Yhat).^2))
Что такое Y в этом сценарии? Я понимаю, что RMSE рассчитывается с использованием разницы между прогнозируемыми и фактическими значениями. Каковы фактические значения здесь? Или чего-то не хватает?