кластеризация смешанных данных с использованием Python - PullRequest
0 голосов
/ 16 мая 2019

Я пытаюсь кластеризовать набор данных, содержащий смешанные данные (номинальные и порядковые), используя кластеризацию k_prototype на основе Huang, Z .: Кластеризация больших наборов данных со смешанными числовыми и категориальными значениями.у меня вопрос как найти оптимальное количество кластеров?

1 Ответ

0 голосов
/ 18 мая 2019

Не существует одного оптимального количества кластеров.Но десятки.Каждая эвристика будет предлагать другое «оптимальное» число для другого плохо определенного понятия «оптимальный», которое, скорее всего, не имеет отношения к проблеме, которую вы пытаетесь решить в первую очередь.

Вместо того, чтобы быть чрезмернокасается "оптимальности", скорее исследовать и экспериментировать больше.Изучите, чего вы на самом деле пытаетесь достичь, и как перевести это в математическую форму, чтобы можно было вычислить, что решает вашу проблему, а что решает чья-то другая ...

...