Нужно ли нам масштабировать (по zscale или по стандартизации) данные при построении дерева решений или случайных лесов?
A: Деревья решений и случайные леса неуязвимы для величины элемента и, следовательно, не требуются.
Поскольку мы знаем, что нам нужно масштабировать данные для KNN,K-означает кластеризацию и PCA.В основе этих алгоритмов лежат расчеты расстояния.Как насчет масштабирования в линейном, логистическом, NavieBayes, деревьях решений и случайных лесах?
A: В общем, масштабирование не является абсолютным требованием, оно является рекомендацией, главным образом для алгоритмов, основанных на сходстве.Для многих алгоритмов вам может потребоваться рассмотреть преобразование данных до нормализации. Есть также различные методы нормализации, которые вы можете попробовать, и нет единого размера, который лучше всего подходит для всех задач.Основной причиной нормализации для алгоритмов, основанных на ошибках, таких как линейная, логистическая регрессия, нейронные сети, является более быстрая сходимость к глобальному минимуму благодаря лучшей инициализации весов. Информационные алгоритмы (деревья решений, случайные леса) и алгоритмы, основанные на вероятности (наивный байесовский алгоритм), Bayesian Networks) тоже не требуют нормализации.