Лучший алгоритм кластеризации для больших векторов - PullRequest
1 голос
/ 29 мая 2019

Я пытаюсь использовать какой-то метод кластеризации на множестве векторов с точками данных, которые имеют 45 измерений.Я довольно новичок в кластеризации точек данных, и мне было интересно, если кто-нибудь может указать подходящие методы для использования?Я пытался использовать K-Means Clustering, но мне было интересно, может ли размерность моих данных быть слишком большой для этого?

Ответы [ 2 ]

0 голосов
/ 30 мая 2019

45 габариты не особо высокие. В лучшем случае это «средняя» размерность, поэтому большинство алгоритмов могут работать.

Обычно дело не в количестве измерений, а в том, насколько хорошо они обработаны. При плохой предварительной обработке 2 измерения могут стать проблемой, если сигнал в одном атрибуте заглушен шумом в другом.

Не существует автоматического способа получить это право, иначе это было бы во всех библиотеках. Масштабирование может помочь, но может и навредить. Пользователь должен подготовить данные и выбрать параметры (например, функции расстояния и алгоритмы) для достижения желаемого эффекта, поскольку не существует вычислимого уравнения для «желаемого».

0 голосов
/ 29 мая 2019

Сложность кластеризации K-средних составляет O (qknp) , где q - количество итераций, k - количество кластеров, n - размер выборки, а p - размерность.

Вы, вероятно, не хотите менять k.

Большую часть времени q определяется во время выполнения алгоритма K-средних. Он останавливается, когда кластерные средства перестают изменяться.

В большинстве случаев вы хотите использовать все свои данные, но вы можете уменьшить размер выборки, это снизит точность ваших результатов.

Вы можете уменьшить измерения ваших данных с помощью анализа основных компонентов.Это приводит к некоторой (в большинстве случаев незначительной) потере информации.который влияет на ваши результаты.

...