У меня есть хорошо известный набор данных из обзора Movielens, и я хотел бы объединить пользователя для вкуса фильма.
Я начинаю с набора данных, подобного этому:
idUser iDmovies review
1 2 1
1 10 2
5 5 5
5 10 2
Первоначально я создал матрицу с пользовательскими фильмами x и заполнил значениями обзора следующим образом:
movieid
idUser 2 5 10
1 1 0 2
5 0 5 2
моя матрица очень разреженная, поэтому я применил матричную факторизацию, чтобы заполнить значение, и теперь у меня есть матрица таким образом (просто пример):
movieid
idUser 2 5 10
1 1 -2 2
5 -2 5 2
Знаете, есть ли смысл применять к этому набору данных PCA o TSNE или Kmeans? или предпочтительнее применять МДС?
Я пытался применить PCA к этому набору данных, и у меня было это:
и я думаю это действительно плохо.
После этого я стараюсь следовать одному руководству для применения TSNE на PCA (https://medium.com/@gabrieltseng/clustering-and-collaborative-filtering-visualizing-clusters-using-t-sne-f9718e7491e6)
по этой ссылке
и я делаю это:
![enter image description here](https://i.stack.imgur.com/icetH.png)
Мой вопрос:
Не думаю, что это очень хороший способ кластеризации. Для вас, ребята, это значимый кластер? Есть ли смысл делать это с полной матрицей?
Я вижу пример в наборе данных Iris, и кластер будет создан, потому что значение Iris действительно очень похоже.
В моем случае один пользователь может быть 5 на одном компоненте и -5 (слишком далеко) на другом ... Так что для меня это может не иметь смысла .. верно?
Просто для пояснения, я хотел бы добавить экран моего обзора матрицы:
![enter image description here](https://i.stack.imgur.com/7YI73.png)
Я действительно схожу с ума от этого ..