преобразование смешанных данных в категориальные: датафрейм - PullRequest
1 голос
/ 08 июля 2019

У меня есть столбец (фактически пара столбцов), которые имеют смешанные данные: категориальные и числовые данные (соответствуют разным категориям). Однако они должны быть просто категоричны по своей природе. Моя конечная цель - дать им представление с горячим кодированием.

Числовые значения в большинстве столбцов - это нули. Я хочу преобразовать этот столбец в категориальный. Поскольку я не знаю прямого способа (смешанного с горячим кодированием) преобразования с использованием get_dummies(). Поэтому я сначала полностью преобразовал в числовое значение, а затем преобразовал в горячее кодирование.

Изображение ниже представляет мой сценарий.

mixed_column

Есть ли лучший подход? Есть ли способ напрямую преобразовать данные в категориальные.

Любая помощь приветствуется.

1 Ответ

0 голосов
/ 10 июля 2019

Приведенный ниже код корректно в горячем виде кодирует столбец с целочисленными и категориальными значениями. Это использует самый прямой способ с get_dummies(). Если это не работает для вас, рассмотрите возможность использования другой библиотеки для категориального кодирования .

import pandas as pd
data = {'Column 1':[1,2,'a']}
df = pd.DataFrame(data)
print(pd.get_dummies(df, columns=['Column 1']))

Выход:

   Column 1_1  Column 1_2  Column 1_a
0           1           0           0
1           0           1           0
2           0           0           1
​
...