PCA против TSNE против MDS (обзорный кластер) - PullRequest
0 голосов
/ 13 марта 2019

У меня есть хорошо известный набор данных из обзора Movielens, и я хотел бы объединить пользователя для вкуса фильма.

Я начинаю с набора данных, подобного этому:

idUser iDmovies review
1       2       1
1       10      2
5       5       5
5       10      2

Первоначально я создал матрицу с пользовательскими фильмами x и заполнил значениями обзора следующим образом:

       movieid
idUser  2    5   10
    1   1    0    2               
    5   0    5    2 

моя матрица очень разреженная, поэтому я применил матричную факторизацию, чтобы заполнить значение, и теперь у меня есть матрица таким образом (просто пример):

          movieid
    idUser  2    5   10
        1   1    -2    2               
        5   -2    5    2 

Знаете, есть ли смысл применять к этому набору данных PCA o TSNE или Kmeans? или предпочтительнее применять МДС?

Я пытался применить PCA к этому набору данных, и у меня было это:

enter image description here

и я думаю это действительно плохо. После этого я стараюсь следовать одному руководству для применения TSNE на PCA (https://medium.com/@gabrieltseng/clustering-and-collaborative-filtering-visualizing-clusters-using-t-sne-f9718e7491e6) по этой ссылке

и я делаю это:

enter image description here

Мой вопрос: Не думаю, что это очень хороший способ кластеризации. Для вас, ребята, это значимый кластер? Есть ли смысл делать это с полной матрицей?

Я вижу пример в наборе данных Iris, и кластер будет создан, потому что значение Iris действительно очень похоже. В моем случае один пользователь может быть 5 на одном компоненте и -5 (слишком далеко) на другом ... Так что для меня это может не иметь смысла .. верно?

Просто для пояснения, я хотел бы добавить экран моего обзора матрицы:

enter image description here

Я действительно схожу с ума от этого ..

1 Ответ

0 голосов
/ 14 марта 2019

В наборе данных, таком как данные фильма, кластеризация обычно не работает так, как можно наивно ожидать.

  1. Не все пользователи принадлежат к кластерам "типичного" интереса
  2. Многиеу пользователей будет несколько интересов
  3. Значимость переменных варьируется
  4. Пропущенные значения не соответствуют 0 рейтингу

Именно поэтому для рекомендательных систем Вы используете, например, подходы, основанные на факторах и элементах.

...