Как дать имена столбцов после горячего кодирования с помощью sklearn? - PullRequest
0 голосов
/ 28 мая 2019

Вот мой вопрос, я надеюсь, что кто-то может помочь мне разобраться в этом.

Для объяснения, в моем наборе данных более 10 категориальных столбцов, и у каждого из них есть 200-300 категорий.Я хочу преобразовать их в двоичные значения.Для этого я использовал первый кодировщик меток для преобразования строковых категорий в числа.Код Label Encoder и выходные данные показаны ниже.

https://i.stack.imgur.com/MIVHV.png

После Label Encoder я снова использовал One Hot Encoder From scikit-learn, и он работает.НО ПРОБЛЕМА ЕСТЬ, мне нужны имена столбцов после одного горячего кодировщика.Например, столбец A с категориальными значениями перед кодированием.A = [1,2,3,4,..]

После кодирования должно быть так:

A-1, A-2, A-3

Кто-нибудь знает, какприсваивать имена столбцов (старые имена столбцов -значение имени или номера) после одной горячей кодировки.Вот мое горячее кодирование, и оно выводится:

https://i.stack.imgur.com/kgrNa.png

Мне нужны столбцы с именем, потому что я обучил ANN, но каждый раз, когда появляются данные, я не могу снова преобразовать все прошлые данные иснова.Итак, я хочу добавлять только новые каждый раз.Все равно спасибо ..

1 Ответ

0 голосов
/ 28 мая 2019

Вы можете получить имена столбцов, используя атрибут .get_feature_names().

>>> ohenc.get_feature_names()
>>> x_cat_df.columns = ohenc.get_feature_names()

Подробный пример: здесь .

...