Минимальная длина описания для кластеризации - PullRequest
0 голосов
/ 02 февраля 2019

Я хотел бы знать, как рассчитать минимальную длину описания (MDL) для оценки результата кластеризации.

Я просматривал некоторые статьи по алгоритмам кластеризации, и одна из них ссылается на MDL как на измерениепроверьте, соответствуют ли кластеры, заданные K-средними, гауссову распределению.

Согласно этой статье, MDL определяется как:

MDL (K) = -log[p_y (y / K)] + 1/2 * L * log (n)
L = K (1 + n + (n + 1) n / 2) - 1

где K - количество кластеров, n - общее количество значений данных, а y - n размерный вектор.

Мне известно, что приведенного выше объяснения может быть недостаточно, чтобы ответить на этот вопрос, но выше приведена вся информация, которой я располагаю сейчас, и я не знаю, как воспроизвести расчет, представленный в статье.

Буду признателен за объяснение того, как рассчитать MDL для оценки результатов кластеризации.

1 Ответ

0 голосов
/ 03 февраля 2019

Расчеты MDL всегда требуют некоторых предположений о том, как кодировать данные.И именно здесь документы MDL часто ошибаются, потому что они сравнивают свою новую кодировку с кодировкой низкого качества в качестве базовой линии, чтобы получить огромный выигрыш ... В любом случае, это значение может быть допустимым, но без контекста и правильных определений трудно сказать.

Когда вы аппроксимируете данные с помощью k-средних, вы должны сохранить:

  1. k *
  2. записать k бит для каждой из n точек, чтобы отобразить точки на центры
  3. k векторов d измерений
  4. отклонение каждой точки от среднего.Если вы предполагаете, что небольшие отклонения встречаются чаще (по Гауссу), используйте для этого меньше битов, а для больших отклонений больше битов
...