Одна горячая кодировка с несколькими тегами в столбце - PullRequest
0 голосов
/ 25 мая 2018

У меня есть простой набор данных.

id,question,category,tags,day,quarter,group_id

1,What is your name,Introduction,Introduction,1,3,0

2,What is your name,Introduction,"Introduction, work",1,3,1

Теперь, если вы видите, в столбце tags есть несколько входов, разделенных запятыми.Если я попытаюсь выполнить горячее кодирование с использованием функции pandas get_dummies, я получу это в виде одного столбца.Но я хотел создать столбцы для каждого тега.Как я могу это сделать, возможно?

Ответы [ 2 ]

0 голосов
/ 25 мая 2018

вы должны использовать pivottable метода dataframe от panda.следующий код может быть полезен

pivot_table(df, values='D', index=['id','question','category','day','quarter','group_id'],columns=['tags'])
0 голосов
/ 25 мая 2018

Мне кажется, нужно str.get_dummies:

df1 = df['tags'].str.get_dummies(', ')
print (df1)

   Introduction  work
0             1     0
1             1     1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...