Вы можете посмотреть документы по проверке кластера. Вот один , который цитируется в статьях, посвященных анализу микрочипов, который включает кластеризацию генов с соответствующими уровнями экспрессии.
Одним из таких методов является силуэтное измерение , которое оценивает, насколько близко помеченная точка находится к центроиду. Общая идея состоит в том, что, если точка назначена одному центроиду, но все еще близко к другим, возможно, она была назначена не тому центроиду. Подсчитывая эти события по обучающим наборам и просматривая различные кластеры k , можно найти k , чтобы помеченные точки в целом попадали в «наилучшую» или минимально неоднозначную схему.
Следует сказать, что кластеризация - это больше техника визуализации и исследования данных. Может быть трудно с уверенностью объяснить, что одна кластеризация объясняет данные правильно, прежде всего другие. Лучше всего объединить ваши кластеры с другой соответствующей информацией. Есть ли что-то функциональное или информативное в ваших данных, такое, что вы знаете, что некоторые кластеры невозможны? Это может значительно сократить пространство для вашего решения.