Как получить или сгенерировать тестовые данные для рекомендательной системы - PullRequest
10 голосов
/ 10 марта 2012

В настоящее время я изучаю рекомендательные системы и хотел бы узнать, как другие исследователи собирают или генерируют тестовые данные для оценки производительности систем?

Ответы [ 2 ]

8 голосов
/ 02 ноября 2012

Когда я работал с Recommender Systems, у меня была точно такая же проблема. Больше всего мне понравился набор данных Grouplens:

http://grouplens.org/node/12

Вы можете загружать оценки, присвоенные пользователям для фильмов.

Кроме того, я описал в своем блоге некоторые наборы данных, которые я нашел во время исследования:

http://girlincomputerscience.blogspot.com.br/2010/12/datasets.html

Надеюсь, это поможет!

7 голосов
/ 12 марта 2012

Я не знаю, какое поле вы оцениваете, но если это рекомендации по фильму, вы можете использовать Данные MovieLens из GroupLens , чтобы начать с. (Похоже, что их сайт временно недоступен, но я уверен, что он скоро вернется).

У них есть три набора данных - 100 000 голосов (предпочтений), 1 миллион и 10 миллионов - и кажется, что они более или менее стандартны, с которых все начинают.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...