Я хотел бы знать, как рассчитать минимальную длину описания (MDL) для оценки результата кластеризации.
Я просматривал некоторые статьи по алгоритмам кластеризации, и одна из них ссылается на MDL как на измерениепроверьте, соответствуют ли кластеры, заданные K-средними, гауссову распределению.
Согласно этой статье, MDL определяется как:
MDL (K) = -log[p_y (y / K)] + 1/2 * L * log (n)
L = K (1 + n + (n + 1) n / 2) - 1
где K - количество кластеров, n - общее количество значений данных, а y - n размерный вектор.
Мне известно, что приведенного выше объяснения может быть недостаточно, чтобы ответить на этот вопрос, но выше приведена вся информация, которой я располагаю сейчас, и я не знаю, как воспроизвести расчет, представленный в статье.
Буду признателен за объяснение того, как рассчитать MDL для оценки результатов кластеризации.