Масштабирование данных перед построением модели необходимо для всех моделей или нет? - PullRequest
0 голосов
/ 28 декабря 2018

Нужно ли нам масштабировать (по zscale или по стандартизации) данные при построении дерева решений или случайных лесов?Поскольку мы знаем, что нам нужно масштабировать данные для KNN, K-средних и PCA.В основе этих алгоритмов лежат расчеты расстояния.Как насчет масштабирования в линейном, логистическом, навигационном деревьях, деревьях решений и случайных лесах?

Ответы [ 3 ]

0 голосов
/ 28 декабря 2018

Масштабирование лучше выполнять в целом, потому что, если все функции имеют одинаковый масштаб, алгоритм градиентного спуска быстрее сходится к глобальному или оптимальному локальному минимуму.

Мы можем ускорить градиентный спуск, поместив каждое из наших входных значений примерно в один и тот же диапазон.Это связано с тем, что параметры нашей модели будут быстро снижаться на малых диапазонах и медленно на больших диапазонах и поэтому будут колебаться неэффективно вплоть до оптимального, когда переменные очень неравномерны.

0 голосов
/ 29 декабря 2018

Нужно ли нам масштабировать (по zscale или по стандартизации) данные при построении дерева решений или случайных лесов?

A: Деревья решений и случайные леса неуязвимы для величины элемента и, следовательно, не требуются.

Поскольку мы знаем, что нам нужно масштабировать данные для KNN,K-означает кластеризацию и PCA.В основе этих алгоритмов лежат расчеты расстояния.Как насчет масштабирования в линейном, логистическом, NavieBayes, деревьях решений и случайных лесах?

A: В общем, масштабирование не является абсолютным требованием, оно является рекомендацией, главным образом для алгоритмов, основанных на сходстве.Для многих алгоритмов вам может потребоваться рассмотреть преобразование данных до нормализации. Есть также различные методы нормализации, которые вы можете попробовать, и нет единого размера, который лучше всего подходит для всех задач.Основной причиной нормализации для алгоритмов, основанных на ошибках, таких как линейная, логистическая регрессия, нейронные сети, является более быстрая сходимость к глобальному минимуму благодаря лучшей инициализации весов. Информационные алгоритмы (деревья решений, случайные леса) и алгоритмы, основанные на вероятности (наивный байесовский алгоритм), Bayesian Networks) тоже не требуют нормализации.

0 голосов
/ 28 декабря 2018

Мы выполняем масштабирование данных, когда ищем какую-то связь между точками данных.В ANN и других подходах к интеллектуальному анализу данных нам необходимо нормализовать входные данные, иначе сеть будет плохо работатьМы выполняем масштабирование для достижения линейных, более надежных отношений.Кроме того, масштабирование данных также может помочь вам преодолеть выбросы в данных.Короче говоря, масштабирование данных настоятельно рекомендуется в каждом типе алгоритмов машинного обучения.Вы можете сделать нормализацию или стандартизацию, чтобы масштабировать ваши данные.[Обратите внимание, что не путайте нормализацию со стандартизацией (например, Z-счет)] Надеюсь, что это помогает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...