Question

У меня есть датафрейм пользователей, которые приобрели различные предметы. Я хочу разбить этот список значений на отдельные столбцы и иметь двоичный флаг для пользователей, которые приобрели этот элемент.

Ввод:

       A           B
0  James  [123, 456]
1   Mary       [123]
2   John  [456, 789]

Ожидается Вывод:

       A           B  123  456  789
0  James  [123, 456]    1    1    0
1   Mary       [123]    1    0    0
2   John  [456, 789]    0    1    1

То, что я пробовал (шаг за шагом)

df['B'].explode() - мой первый шаг:

Использование get_dummies() pd.get_dummies(df['B'].explode()):

   123  456  789
0    1    0    0
0    0    1    0
1    1    0    0
2    0    1    0
2    0    0    1

Объединить вместе по индексу df.join(pd.get_dummies(df['B'].explode())):

       A           B  123  456  789
0  James  [123, 456]    1    0    0
0  James  [123, 456]    0    1    0
1   Mary       [123]    1    0    0
2   John  [456, 789]    0    1    0
2   John  [456, 789]    0    0    1

Проблема:

Теперь мне просто нужно сгруппировать и объединить. Однако, поскольку миллионы и миллионы рядов и клиенты покупают сотни продуктов, этот метод объединения / объединения крайне неэффективен. Есть ли более "pandas-Friendly" или встроенная функция, которая делает это?

Quang Hoang · Answer 1 · 07 апреля 2020

вы можете заменить pd.get_dummies(df['B'].explode() на pd.get_dummies(df.B.explode()).sum(level=0) и присоединиться.

Pandas Список значений для двоичных столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pandas Список значений для двоичных столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов