Я пытаюсь кластеризовать некоторые продукты на основе поведения пользователей. В конце я достигаю кластеры, у которых очень разное количество наблюдений.
Я проверил параметры кластеризации k-средних и не смог найти параметр, который контролирует минимальное (или максимальное) количество наблюдений на кластер.
Например, вот как количество наблюдений распределяется по различным кластерам.
cluster_id num_observations
0 6
1 4
2 1
3 3
4 29
5 5
Любая помощь о том, как справиться с этой проблемой? Любой другой алгоритм кластеризации, который может позаботиться об этом?