Кластеризация: если все мои функции находятся в диапазоне 0-1, мне все равно придется использовать стандартное масштабирование - PullRequest
0 голосов
/ 01 февраля 2019

Я пытаюсь запустить алгоритм кластеризации на наборе данных с 14 функциями.Из этих функций, кроме одной, каждая функция находится в диапазоне от 0 до 1. Оставшаяся одна функция представляет собой непрерывную переменную в диапазоне от 0 до 8000. Нужно ли мне использовать стандартный инструмент масштабирования для всех функций или только эту одну функцию (0 - 8000) до кластеризации ??ИЛИ я просто использую скейлер min-max для одной этой функции ??

1 Ответ

0 голосов
/ 01 февраля 2019

Вы не должны использовать ни один из них.

Стандартное масштабирование, а также [0; 1] масштабирование (которое не одинаково) - это всего лишь два популярных * 1005.* эвристика для весовых переменных.Также не является «правильным» *.

Если у вас есть более веская причина по-разному взвешивать переменные, вы также можете просто сделать это. Вещи не становятся более «правильными» при масштабировании.

Сокращениевес этой переменной 8000, вероятно, является хорошей идеей, но если возникает этот вопрос, это, вероятно, означает, что вы не поняли проблему, которую пытаетесь решить ... Вы просто используете огромный, без плана.

...