Станлизировать только несколько выбранных столбцов в машинном обучении - PullRequest
0 голосов
/ 15 февраля 2020

У меня есть файл CSV, из которого только несколько столбцов нуждаются в нормализации (другие являются двоичными значениями). Должен ли я выборочно нормализовать необходимые столбцы или все столбцы в таблице? Если я нормализую всю таблицу, потеряю ли я некоторую информацию, или в данные будут внесены помехи, не требующие нормализации или стандартизации?

1 Ответ

0 голосов
/ 16 февраля 2020

Давайте проясним некоторые моменты.

  • Двоичные данные - это категориальные данные (IsEmployed - 0/1)
  • Нормализовать должны только числовые данные

Понимание части:

  • Когда мы говорим нормализованные данные, это означает, что мы перемещаем шкалу распределения с 0-1.
  • Категориальные данные / двоичные данные (в вашем случае) на Природа имеет вес / значение для каждого класса. Таким образом, применение нормализации к категориальным данным - это не что иное, как вы меняете важность. Также да, можно сказать, что вы вводите смещение.

+ Добавлено:

  • С точки зрения категориальных данных мы делаем OneHotEncoding и конвертируем вернуться к двоичным данным для каждой категории.
...