Как описать степень (полосу ошибок) результата кластеризации (центр кластеризации)? - PullRequest
0 голосов
/ 20 июня 2019

Я выполнил k-средних для очень больших данных, в которых миллионы строк, и каждая строка содержит вектор из 48 измерений. Применяя k = 3, эти данные группируются в три класса, каждый класс имеет 48-мерный вектор центра кластеризации. Я строю три вектора центра кластеризации в виде графика параллельных координат. Кажется, три линии хорошо разделены. Однако я также хочу знать экстент каждого кластера (aka. верхняя полоса и нижняя полоса или «зона ошибки»). Так как мне получить верхнюю полосу и нижнюю полосу центра кластеризации?
Поскольку в каждом кластере содержится почти миллион векторов, их трудно представить на графике в качестве фона и нанести на него центр кластеризации.
Большое спасибо.

1 Ответ

0 голосов
/ 23 июня 2019

Что ж, вы, конечно, можете позволить себе также построить по каждой оси:

  • минимальный и максимальный
  • верхний и нижний квартили (миллион значений для оперативной памяти легко, иможет быть отсортировано)
  • стандартное отклонение
  • стандартная ошибка среднего

Убедитесь, что вы понимаете статистическое значение каждого из этих пар.

С минимальным и максимальным значениями, которые вы ожидаете, что полосы будут перекрываться, если только не будет доминирующей функции.Стандартная ошибка среднего значения, скорее всего, слишком мала, чтобы быть полезной (она указывает, насколько ожидается изменение среднего значения, если вы добавите точку данных, поэтому любая разница кластеров в этом диапазоне является абсолютно случайной, но кластеры не являются независимыми).

...