Автоматические кластеры имеют тенденцию быть хуже для всех практических целей, чем все, что вы пометили вручную.
Так что я не думаю, что вам нужно их "оптимизировать".
Но есть несколько очевидных подходов:
- Для таких методов, как KMeans и PAM, вы можете использовать ваши ручные кластеры в качестве начальных центроидов.Просто убедитесь, что они не ухудшаются ...
- Существуют алгоритмы кластеризации с ограничениями, в которых вы можете использовать существующие метки в качестве ограничений и заставить алгоритм кластеризации найти решение с наилучшим соглашением.
Но не стоит переоценивать кластеризацию.Он очень чувствителен к параметрам, предварительной обработке, нормализации, ... - он не настолько надежен.