Понятие назначения кластера зависит от конкретного алгоритма кластеризации.Давайте рассмотрим самый простой случай: жесткая кластеризация с помощью k-средних.В таком случае назначение выполняется на основе ближайшего центроида кластера к рассматриваемой точке.
В отношении нового экземпляра теста параметры означают следующее:
- Использовать обучающий набор (по умолчанию)
Поскольку кластеризация обычно выполняется неконтролируемым образом, опция по умолчанию означает, что после завершения алгоритма кластеризации Weka сгенерирует список с указанием количества экземпляров.присваивается каждому кластеру (также в процентах).В этом случае новые тестовые экземпляры не предоставляются, те же экземпляры из обучающего набора используются для вычисления окончательного результата кластеризации
- Классы для оценки кластеров
Эта опция позволяет пользователю действительно протестировать результаты кластеризации посредством предоставления меток классов для обучающих экземпляров (что означает, что набор данных с метками должен быть доступен).В этом режиме Weka сначала запускает алгоритм кластеризации без контроля без учета метки класса, а затем вычисляет, сколько экземпляров с определенной меткой было кластеризовано для каждого кластера на основе большинства экземпляров некоторого класса в каждом кластере.Он также генерирует матрицу путаницы, как в стандартной контролируемой задаче классификации.Однако отдельный набор тестов не используется, поскольку оценка выполняется на основе предоставленных меток классов в одном и том же обучающем наборе, поэтому новых тестовых наборов также нет.
- Поставляемый набор тестов или процентное разделение
Выбрав эту опцию, пользователь может предоставить отдельный набор тестов (или просто использовать разделение доступного набора данных на обучающий и тестовый наборы).В этом случае Weka сначала запускает алгоритм кластеризации на обучающем наборе и использует набор тестов, чтобы назначить кластер новым экземплярам теста.Результат, сгенерированный в конце, такой же, как для опции по умолчанию (Использовать обучающий набор), но он рассчитывается только на основе экземпляров, взятых из тестового набора.
Надеюсь, это поможет!