Доступно множество алгоритмов кластеризации. Популярным алгоритмом является K-средство, где на основе заданного количества кластеров алгоритм выполняет итерацию для нахождения наилучших кластеров для объектов.
Какой метод вы используете для определения количества кластеров в данных в кластеризации k-средних?
Содержит ли какой-либо пакет, доступный в R, метод V-fold cross-validation
для определения правильного количества кластеров?
Другим хорошо используемым подходом является алгоритм максимизации ожиданий (EM), который назначает распределение вероятностей каждому экземпляру, которое указывает вероятность его принадлежности каждому из кластеров.
Реализован ли этот алгоритм в R?
Если это так, имеет ли он возможность автоматического выбора оптимального количества кластеров путем перекрестной проверки?
Вместо этого вы предпочитаете какой-либо другой метод кластеризации?