pandas.get_dummies для чисел с плавающей запятой для машинного обучения - PullRequest
0 голосов
/ 02 июня 2018

У меня есть некоторые данные в виде фрейма данных panda, в котором есть столбцы акварель (строка), место (строка), температура (число с плавающей точкой).

Я хочу использовать одну горячую кодировку для преобразования данныхна такие категории, как

color: darkblue, lightblue, teal
        1           0        0
        0           1        0

Для строк это не проблема, но как мне установить интервалы для температуры (с плавающей точкой)?

Я попытался написать:

output = pd.get_dummies(df.astype(str))

Проблема состоит в том, что все уникальные значения с плавающей точкой превращаются в отдельную категорию, например:

temperature:   37,6 37,7  37,9  38
                0     1    0     0
                1     0    0     0

Это означает, что моя программа будет соответствовать данным, поскольку все температуры превращаются в отдельные категории.Я хотел бы указать интервал для третьего столбца (температура).Поэтому я хочу сгруппировать все значения, скажем, 37,5-39 и 39-41,5 и т. Д.

1 Ответ

0 голосов
/ 02 июня 2018

попробуйте использовать cut перед созданием столбцов-пустышек

pd.cut(df['temperature'], [37.5, 39, 41,.....], labels=['37.5-39', '39-41',.....])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...