Как я могу использовать алгоритм кластеризации DBSCAN для набора данных, имеющего несколько атрибутов? - PullRequest
0 голосов
/ 31 марта 2019

Я работаю над проектом, в котором я использую набор данных - https://www.kaggle.com/aljarah/xAPI-Edu-Data.Я хочу сделать кластеризацию студентов (каждый студент представлен в виде индекса), основываясь на различных атрибутах набора данных, таких как поднятые руки, посещенные ресурсы, просмотренные объявления и т. Д. Пожалуйста, предложите, как я могу реализовать это с помощью DBSCAN, если нет, предложите какую-то техникучерез который я могу это сделать.Я новичок в этой области науки о данных.

Спасибо

Я пытался изучать gmm и dbscan.

Я хочу сделать кластеризацию на наборе данных.

1 Ответ

0 голосов
/ 31 марта 2019

Любая стандартная реализация DBSCAN будет поддерживать несколько атрибутов.

В основном это будет зависеть от вашего решения о том, как измерить сходство, когда атрибуты имеют совершенно другой тип. Евклидово расстояние, скорее всего, не имеет смысла. Но нет «правильного» способа сделать это, это ваше решение о том, как моделировать данные. Для этого набора данных, к сожалению, он будет довольно произвольным, поскольку эти атрибуты не имеют естественного масштаба.

...