Нет, не совсем.
- Если каждый элемент является равномерно случайным в [1-5]
- идеальный оценщик прогнозирует 3 для всех записей
Вам не хватает неравномерных / реальных дистрибутивов. Каждая система рекомендаций построена на предположениях или не может превзойти случайные предположения. (Имейте в виду, что речь идет не только о распределении рейтинга; но и о том, какие элементы оцениваются -> множество теоретических исследований, показывающих различные допущения: например, единообразные или что-то еще; в основном в выпуклой СЧ с ядерной нормой против максимальной нормы и сотрудничества.)
Лучше выбирать те доступные наборы данных и, если необходимо, отбирать их, не разрушая все виды корреляции. Например. фильтрация по некоторому атрибуту, например, A: все рейтинги с некоторым фильмом <= 1990; все рейтинги> 1990. Да, это сместит базовые дистрибутивы, но звучит примерно так, что вы хотите. Если не всегда, вы всегда можете сделать выборку единообразно, но это больше для некоторой обобщающей оценки (маленькие или большие наборы данных).