(я разработчик.) Если бы я оказался на необитаемом острове с одной метрикой подобия для данных без рейтингов / префов, это было бы логарифмической вероятностью.Я бы вообще ожидал, что это будет лучший показатель сходства.
Проблема с тестом, который вы делаете, заключается в том, что, возможно, совсем не очевидно, что он не имеет смысла для такого рода рекомендаций / данных.RMSE - это среднеквадратичная ошибка, и она сравнивает фактическую и прогнозируемую оценки для данных испытаний, которые не были проведены.Но у вас нет оценок.Они все "1.0".На самом деле, RMSE всегда равно 0!
Это не так, так как для того, чтобы иметь что-то для ранжирования, эти рекомендатели будут ранжироваться по некоторой значимой функции сходства.Но они не оценивают рейтинги / привилегии вообще.Итак, RMSE означает здесь присед.
Единственная метрика, которую вы действительно можете использовать, это, я думаю, тест точности / отзыва в этом случае.Даже это проблематично.Эта и другие забавные темы описаны в книге, которую я буду бесстыдно рекламировать: Mahout в действии