как построить кластеры, которые примерно сбалансированы по размеру в sklearn - PullRequest
0 голосов
/ 08 декабря 2018

Как видно выше, как построить кластеры, которые приблизительно сбалансированы по размеру в sklearn? У меня есть вопрос , кластеризация выполняется в соответствии с определенными правилами. Почему мы можем указать число в кластере? В любом случае, я хочу знать, какдостичь этого шага.

Ответы [ 2 ]

0 голосов
/ 09 декабря 2018

У меня есть еще одна идея. Вычислите номер каждой метки, затем вычислите дисперсию и получите одну с наименьшей дисперсией

0 голосов
/ 08 декабря 2018

Некоторые методы (например, HDBSCAN от non-sklearn: https://hdbscan.readthedocs.io/en/latest/parameter_selection.html) имеют такие параметры, как minimal_cluster_size. Вероятно, min_samples для DBSCAN в sklearn будут работать аналогичным образом. Это не даст вам точные «сбалансированные» кластеры, но может помочь.

Но, на мой взгляд, иногда разумнее запускать алгоритмы кластеризации с разными параметрами и выбирать «более сбалансированный» вывод своими руками. В этом случае вы можете увидеть, какие точки не являются разделяемыми, и, возможно, добавить больше данных.(например, рассчитать дополнительную матрицу расстояний) или изменить целевую метрику.

Почему мы можем указать число в кластере?

Поскольку задачи 'находят кластеры' и 'сбалансировать их »в большинстве случаев немного противоположны по своему значению. Я даже не говорю об алгоритмах, когда нужно указать количество кластеров.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...