У меня есть набор данных, по которому я пытаюсь определить правила ассоциации.Данные после слияния и сопоставления выглядят следующим образом:
Снимок данных транзакции
По этой ссылке: Анализ корзины рынка в Python .Я вижу, что могу использовать метод groupby
для группировки данных с использованием идентификатора заказа и с помощью этой команды:
basket = df_order_mapped.groupby(['order_id']).sum().unstack()
Я могу сгруппировать все по Order_id без пробелов между отдельными купленными товарами,Тем не менее, я не знаю, как выполнить одно горячее кодирование, как это сделано в ссылке.В справочнике используется команда:
basket = (df[df['Country'] =="France"]
.groupby(['InvoiceNo', 'Description'])['Quantity']
.sum().unstack().reset_index().fillna(0)
.set_index('InvoiceNo'))
Несмотря на то, что я пытался понять каждую отдельную команду одну за другой, я, кажется, не могу разобраться во всем.В качестве теста я попытался использовать groupby
как для order_id, так и для product_id, но получаю ошибку:
IndexError: index 838323453 is out of bounds for axis 0 with size 838322411
Количество строк равно 3 м, а общее количество потенциальных продуктов равно 25000.
Буду признателен, если кто-нибудь поможет мне с этим.
Заранее спасибо.