Добавление категориальных столбцов в модель прогнозирования - PullRequest
0 голосов
/ 21 ноября 2018

Я получил данные о клиентах и ​​информацию об их деятельности, и я построил модель, которая предсказывает, покупают ли они продукт или нет.моя метка - это столбец did_buy, который присваивает 1, если клиент купил, и 0, если нет.моя модель учитывает числовые столбцы, но я также хотел бы добавить категориальные столбцы в прогностическую модель, и я не уверен, как преобразовать их и использовать их в моей X-последовательности.вот проблеск моих столбцов данных:

Company_Sector         Company_size  DMU_Final  Joining_Date  Country
Finance and Insurance       10        End User   2010-04-13   France
Public Administration       1         End User   2004-09-22   France

еще несколько столбцов:

linkedin_shared_connections   online_activity  did_buy   Sale_Date
            11                        65           1      2016-05-23
            13                        100          1      2016-01-12

1 Ответ

0 голосов
/ 29 ноября 2018

у вас есть разные варианты преобразования категориальных переменных в числовые или двоичные переменные.например, столбец страны в вашем фрейме данных имеет разные значения (например, Франция, Китай ,, ...).Одним из решений, которое вы можете преобразовать в числовые переменные, является: {Франция: 1, Китай: 2, ....}

#import libraries
from sklearn import preprocessing
import pandas as pd
#Create a label encoder object and fit to Country Column
label_encoder = preprocessing.LabelEncoder()
label_encoder.fit(df['Country'])
# View the label {France,China,...}
list(label_encoder.classes_)
# Transform Country Column to Numerical Var
label_encoder.transform(df['Country']) 
# Convert some integers into their category names --->{China,China,France}
list(label_encoder.inverse_transform([2, 2, 1]))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...