Я использую искровую ALS для обучения моделей с неявной обратной связью.
Но я сбиваю с толку, как установить наборы поездов и тестовых данных.
Я тренирую модель, чтобы делать рекомендации. Набор данных формируется как (user_id, item_id, rating). «Рейтинг» - это сколько раз пользователь нажимает на элемент. Если пользователь никогда не нажимал на элемент, рейтинг равен нулю.
Мои вопросы:
- В наборе данных поезда я должен отбросить все нулевые оценки?
- MPR (Среднее Процентильное Ранжирование) должно быть хорошим способом оценки модели. Я думаю, что для тестового набора данных следует сбросить нулевые оценки, потому что нули не влияют на MPR. Я прав?
Я пробовал другие методы оценки. Такие как RMSE и AUC (с функцией areaUnderRoc ()). RMSE не очень хорошая, потому что обратная связь неявна. AUC не хорош, потому что это не бинаризованная проблема.
Теперь я собираюсь попробовать MPR, и мне нужны некоторые предложения.