Имеет ли смысл тестирование методики совместной фильтрации на случайно сгенерированной матрице рейтинга предметов пользователя? - PullRequest
0 голосов
/ 19 ноября 2018

Я знаю, что некоторые наборы данных доступны для запуска алгоритмов совместной фильтрации, таких как фильтрация на основе пользователя или на основе элементов. Однако мне нужно протестировать алгоритм на многих наборах данных, чтобы доказать, что моя предложенная методология работает лучше. Я сгенерировал случайные матрицы рейтинга пользовательских предметов со значениями от 1 до 5. Я считаю сгенерированные матрицы основополагающими. Затем я удаляю некоторые из оценок в матрице и, используя свой алгоритм, прогнозирую пропущенные оценки. Наконец, я использую меру RMSE, чтобы сравнить основную матрицу истинности и матрицу, которую я получаю как вывод из моего алгоритма. Эта методология кажется значимой или нет?

1 Ответ

0 голосов
/ 22 ноября 2018

Нет, не совсем.

  • Если каждый элемент является равномерно случайным в [1-5]
    • идеальный оценщик прогнозирует 3 для всех записей

Вам не хватает неравномерных / реальных дистрибутивов. Каждая система рекомендаций построена на предположениях или не может превзойти случайные предположения. (Имейте в виду, что речь идет не только о распределении рейтинга; но и о том, какие элементы оцениваются -> множество теоретических исследований, показывающих различные допущения: например, единообразные или что-то еще; в основном в выпуклой СЧ с ядерной нормой против максимальной нормы и сотрудничества.)

Лучше выбирать те доступные наборы данных и, если необходимо, отбирать их, не разрушая все виды корреляции. Например. фильтрация по некоторому атрибуту, например, A: все рейтинги с некоторым фильмом <= 1990; все рейтинги> 1990. Да, это сместит базовые дистрибутивы, но звучит примерно так, что вы хотите. Если не всегда, вы всегда можете сделать выборку единообразно, но это больше для некоторой обобщающей оценки (маленькие или большие наборы данных).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...