Для каждого продукта в столбце укажите идентификатор_пользователя, который принес продукт наибольшее количество раз. - PullRequest
0 голосов
/ 15 октября 2018

У меня есть набор данных о покупках в супермаркете с двумя столбцами: Id, Products.Идентификатор - это уникальный идентификатор клиента, продукты содержат товары, на которые он покупалТаблица выглядит следующим образом:

| S.No | ID          | Products           |
|----- |-------------|--------------------|
| 1    |        23   |     4,5,6          |
| 2    |        21   |     21,11           |
| 3    |        21   |     11,21,23,18,17 |
| 4    |        125  |     21,22          |
| 5    |        23   |     4,5,8          |

Теперь я хочу определить, кто является наиболее покупаемым покупателем каждого продукта, подобного этому

| Product | highestshopper |
|    4    |       23       |
|    11   |       21       |
|    21   |       21       |

1 Ответ

0 голосов
/ 15 октября 2018

Использование get_dummies с sum до idxmax

df.set_index('ID').Products.str.get_dummies(',').sum(level=0).idxmax()
Out[145]: 
11     21
17     21
18     21
21     21
22    125
23     21
4      23
5      23
6      23
8      23
dtype: int64
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...