категориальные переменные в двоичные переменные - PullRequest
0 голосов
/ 31 мая 2018

У меня есть DataFrame, который выглядит следующим образом: исходный фрейм данных

У меня есть разные теги в столбце 'Concepts_clean', и я хочу автоматически заполнить другие, например, так: результирующий фрейм данных

Например: четвертая строка, столбец «Concepts_clean» У меня есть [«Accueil Amabilité», «Тарифы»], затем я хочу заполнить столбцы «Accueil Amabilité» и «Тарифы»одни и все остальные с нулями.

Какой самый эффективный способ сделать это?

Спасибо

1 Ответ

0 голосов
/ 31 мая 2018

Это скорее проблема кодирования n-hot -

>>> def change_df(x):
...  for i in x['Concepts_clean'].replace('[','').replace(']','').split(','):
...   x[i.strip()] = 1
...  return x
...
>>> df.apply(change_df, axis=1)

Пример вывода

Concepts_clean          Ecoute  Informations  Tarifs
[Tarifs]                 0.0           0.0     1.0
[]                       0.0           0.0     0.0
[Ecoute]                 1.0           0.0     0.0
[Tarifs, Informations]   0.0           1.0     1.0
...