Библиотека, подобная Apache Mahout, предоставляет платформу для автоматического выполнения этой работы.
Но позвольте мне предположить, что вы хотите написать собственное решение.
Как правило, вы проверяете точность с помощью перекрестной проверки . Итак, возьмите набор данных рейтингов. Разделите его на два набора, один набор - обучающий набор, а другой набор - «тестовый набор». Обычно это делается путем случайного выбора, скажем, 80% пользователей и включения их в тренировочный тест и использования оставшихся 20% для набора тестов.
Один за другим выберите пользователей в наборе тестов. Чтобы проверить свою точность, вы можете использовать метрику «все, кроме одного»: скрыть один рейтинг от этого одного использования и попытаться предсказать его. (Некоторые авторы называют это «оставь один раз» вместо «все, кроме одного».) Используйте только обучающий набор и данные этого одного пользователя (за исключением, конечно, скрытого рейтинга) , Каждый раз, когда вы делаете это, вы получаете ошибку, вы можете просто суммировать их и делить на количество сделанных вами прогнозов. Это средняя средняя ошибка.
Конечно, есть и другие способы сделать это.