Горячее кодирование данных для данных рыночной корзины - PullRequest
0 голосов
/ 01 декабря 2018

У меня есть набор данных, по которому я пытаюсь определить правила ассоциации.Данные после слияния и сопоставления выглядят следующим образом:

Снимок данных транзакции

По этой ссылке: Анализ корзины рынка в Python .Я вижу, что могу использовать метод groupby для группировки данных с использованием идентификатора заказа и с помощью этой команды:

basket = df_order_mapped.groupby(['order_id']).sum().unstack()

Я могу сгруппировать все по Order_id без пробелов между отдельными купленными товарами,Тем не менее, я не знаю, как выполнить одно горячее кодирование, как это сделано в ссылке.В справочнике используется команда:

basket = (df[df['Country'] =="France"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

Несмотря на то, что я пытался понять каждую отдельную команду одну за другой, я, кажется, не могу разобраться во всем.В качестве теста я попытался использовать groupby как для order_id, так и для product_id, но получаю ошибку:

IndexError: index 838323453 is out of bounds for axis 0 with size 838322411

Количество строк равно 3 м, а общее количество потенциальных продуктов равно 25000.

Буду признателен, если кто-нибудь поможет мне с этим.

Заранее спасибо.

...