Набор данных MovieLens предоставляет таблицу со столбцами:
userid | movieid | tag | timestamp
У меня проблемы с воспроизведением способа обрезки набора данных MovieLens, используемого в:
Совместная фильтрация по меткам, по Жень, Ли и Янгу
В 4.1 Data Set вышеупомянутой бумаги, это пишет
«Для информации о тегах мы сохраняем только те теги, которые добавлены
по крайней мере, 3 различных фильма. Что касается пользователей, мы только
сохранить тех пользователей, которые использовали по крайней мере 3 различных тега в своих
пометка истории. Для фильмов мы сохраняем только те фильмы, которые
помечены как минимум тремя разными тегами. "
Я пытался запросить базу данных:
select TMP.userid, count(*) as tagnum
from (select distinct T.userid as userid, T.tag as tag from tags T) AS TMP
group by TMP.userid
having tagnum >= 3;
Я получил список из 1760 пользователей, которые пометили 3 разных тега. Тем не менее, некоторые из тегов
не добавляются как минимум в 3 отдельных фильма.
Любая помощь приветствуется.