Я работаю над набором данных, в котором категориальные переменные уже LabelEncoded
. Итак, мой вопрос: преобразовать ли я все из них в фиктивные переменные, хотя некоторые из них имеют 0 или 1 в качестве значения?
Некоторые переменные имеют значения: (-1, 0, 1) и (1, 2, 3, 4, ...)
Манекены дадут мне двоичные значения, но у меня уже есть двоичные значения для некоторых категориальных признаков, как я упоминал выше. Есть ли смысл превращать их в манекенов?
Кроме того, у меня есть категорические особенности типа int64
. Должен ли я сначала преобразовать их в тип object
, а затем создать макеты, или я должен просто оставить их как int64
, а затем создать макеты.
В настоящее время я делаю макеты, используя get_dummies()
из pandas, это отличается от OneHotEncoder
? Если да, то какой из них предпочтительнее?
Это заголовок набора данных:
custid region townsize gender age agecat birthmonth ed edcat jobcat ... owncd ownpda ownpc ownipod owngame ownfax news response_01 response_02 response_03
3964-QJWTRG-NPN 1 2.0 1 20 2 September 15 3 1 ... 0 0 0 1 1 0 0 0 1 0
0648-AIPJSP-UVM 5 5.0 0 22 2 May 17 4 2 ... 1 1 1 1 1 1 1 0 0 0
5195-TLUDJE-HVO 3 4.0 1 67 6 June 14 2 2 ... 1 0 0 0 0 0 1 0 0 0
4459-VLPQUH-3OL 4 3.0 0 23 2 May 16 3 2 ... 1 0 1 1 1 0 1 1 0 0
8158-SMTQFB-CNO 2 2.0 0 26 3 July 16 3 2 ... 1 0 1 0 1 0 0 0 1 0
Я хочу подготовить этот набор данных для LinearRegression
Модель.