Как WEKA оценивает кластеры? - PullRequest
0 голосов
/ 29 ноября 2018

Привет, нашёл это объяснение в этой ссылке:

  • Использовать тренировочный набор (по умолчанию).После создания кластера Weka
    классифицирует обучающие экземпляры на кластеры в соответствии с представлением кластера
    и вычисляет процент попаданий
    в каждом кластере.

  • В Поставляемом наборе тестов или Процентном разделении Weka может оценить
    кластеризацию на отдельных тестовых данных, если представление кластера является вероятностным (например, для EM).

  • Оценка классов для кластеров.В этом режиме Weka сначала игнорирует
    атрибут класса и генерирует кластеризацию.Затем во время
    фазы тестирования он назначает классы кластерам на основе значения большинства атрибута класса в каждом кластере.Затем он вычисляет ошибку классификации на основе этого назначения, а также показывает соответствующую матрицу путаницы.Пример
    этого для k-средних показан ниже.

Однако мне не ясно, как WEKA классифицирует новый экземпляр в кластере и как он измеряет, если этоЭкземпляр должен быть классифицирован в этом кластере или нет.Или если только определить распределение тестовых экземпляров в каждом кластере, без оценки правильности назначения или нет?

1 Ответ

0 голосов
/ 30 ноября 2018

Понятие назначения кластера зависит от конкретного алгоритма кластеризации.Давайте рассмотрим самый простой случай: жесткая кластеризация с помощью k-средних.В таком случае назначение выполняется на основе ближайшего центроида кластера к рассматриваемой точке.

В отношении нового экземпляра теста параметры означают следующее:

  • Использовать обучающий набор (по умолчанию)

Поскольку кластеризация обычно выполняется неконтролируемым образом, опция по умолчанию означает, что после завершения алгоритма кластеризации Weka сгенерирует список с указанием количества экземпляров.присваивается каждому кластеру (также в процентах).В этом случае новые тестовые экземпляры не предоставляются, те же экземпляры из обучающего набора используются для вычисления окончательного результата кластеризации

  • Классы для оценки кластеров

Эта опция позволяет пользователю действительно протестировать результаты кластеризации посредством предоставления меток классов для обучающих экземпляров (что означает, что набор данных с метками должен быть доступен).В этом режиме Weka сначала запускает алгоритм кластеризации без контроля без учета метки класса, а затем вычисляет, сколько экземпляров с определенной меткой было кластеризовано для каждого кластера на основе большинства экземпляров некоторого класса в каждом кластере.Он также генерирует матрицу путаницы, как в стандартной контролируемой задаче классификации.Однако отдельный набор тестов не используется, поскольку оценка выполняется на основе предоставленных меток классов в одном и том же обучающем наборе, поэтому новых тестовых наборов также нет.

  • Поставляемый набор тестов или процентное разделение

Выбрав эту опцию, пользователь может предоставить отдельный набор тестов (или просто использовать разделение доступного набора данных на обучающий и тестовый наборы).В этом случае Weka сначала запускает алгоритм кластеризации на обучающем наборе и использует набор тестов, чтобы назначить кластер новым экземплярам теста.Результат, сгенерированный в конце, такой же, как для опции по умолчанию (Использовать обучающий набор), но он рассчитывается только на основе экземпляров, взятых из тестового набора.

Надеюсь, это поможет!

...