Как выбрать Label Encoded категориальные переменные для создания чайников? - PullRequest
1 голос
/ 11 января 2020

Я работаю над набором данных, в котором категориальные переменные уже LabelEncoded. Итак, мой вопрос: преобразовать ли я все из них в фиктивные переменные, хотя некоторые из них имеют 0 или 1 в качестве значения?

Некоторые переменные имеют значения: (-1, 0, 1) и (1, 2, 3, 4, ...)

Манекены дадут мне двоичные значения, но у меня уже есть двоичные значения для некоторых категориальных признаков, как я упоминал выше. Есть ли смысл превращать их в манекенов?

Кроме того, у меня есть категорические особенности типа int64. Должен ли я сначала преобразовать их в тип object, а затем создать макеты, или я должен просто оставить их как int64, а затем создать макеты.

В настоящее время я делаю макеты, используя get_dummies() из pandas, это отличается от OneHotEncoder? Если да, то какой из них предпочтительнее?

Это заголовок набора данных:

 custid         region  townsize    gender  age agecat  birthmonth  ed  edcat   jobcat  ... owncd   ownpda  ownpc   ownipod owngame ownfax  news    response_01 response_02 response_03
 3964-QJWTRG-NPN    1   2.0         1       20  2       September   15  3           1   ...     0       0       0       1       1       0   0       0           1           0
 0648-AIPJSP-UVM    5   5.0         0       22  2       May         17  4           2   ...     1       1       1       1       1       1   1       0           0           0
 5195-TLUDJE-HVO    3   4.0         1       67  6       June        14  2           2   ...     1       0       0       0       0       0   1       0           0           0
 4459-VLPQUH-3OL    4   3.0         0       23  2       May         16  3           2   ...     1       0       1       1       1       0   1       1           0           0
 8158-SMTQFB-CNO    2   2.0         0       26  3       July        16  3           2   ...     1       0       1       0       1       0   0       0           1           0

Я хочу подготовить этот набор данных для LinearRegression Модель.

1 Ответ

0 голосов
/ 11 января 2020

Полагаю, конечной целью этого упражнения по подготовке данных является ML 1018 *. Таким образом, вам нужно взглянуть на свои данные с предпосылок этого al go. В целом, с большинством алгоритмов все в порядке, если ваши данные имеют числовое кодирование, независимо от того, какую предварительную обработку данных вы используете go, Label Encoder или One Hot Encoder.

В более мелком масштабе предпочтительный вариант будет зависеть от всех go, ваших данных и количества имеющихся данных.

В любом случае, единственный способ сказать, какой из них лучше для вашей задачи и данных - Label Encoder или One Hot Encoder (или get_dummies из pandas) - это запуск вашего al go путем перекрестной проверки с различной предварительной обработкой данных.

Чтобы добавить больше соображений к вашему выбору, некоторые алгоритмы, например, KNN и deep learning, могут потребовать нормализации данных.

...