Какой метод кластеризации может работать с многомерными данными? - PullRequest
0 голосов
/ 21 февраля 2019

Меня это очень смущает, и я новичок в кластеризации.

Недавно я создал файл csv и его структуру данных, как показано ниже: файл csv

Как видите, значение в каждом элементе является массивом, и есть две формы массива: [1,2] и [2,1].Короче говоря, у меня есть 200 образцов, и у каждого есть 400 объектов, но тип каждого объекта - массив.

Итак, может ли Kmeans справиться с этим или есть другой способ кластеризации данных такого типа?Спасибо!

1 Ответ

0 голосов
/ 23 февраля 2019

K-средства вычисляют средства.Каноническое определение средних для массивов - по компонентам - эквивалентно сглаживанию ваших данных в виде * p массива.

Другие методы, такие как HAC и DBSCAN , могут использоваться с любыми данными, гдеу вас есть функция расстояния, например, полигоны.

Что приводит к главной проблеме: вы не можете «просто» кластеризоваться.Вы должны определить правильный способ обработки ваших данных.Если вы хотите минимизировать квадратичные отклонения от среднего значения компонента, то k-означает.Если у вас есть способ количественно определить расстояние, то HAC и DBSCAN.В противном случае вам сначала необходимо выяснить, как измерить сходство таким образом, чтобы это было полезно для вашего варианта использования.

...