Панды лучший способ для больших данных?от длинного формата к широкому формату - PullRequest
0 голосов
/ 25 декабря 2018

Я пытался преобразовать фрейм данных для анализа корзины рынка

Sales Order Number, Product Category, Product, SKU Quantity
A123, Book, book of python, 1
A123, Book, book of java, 2
A123, Book, how to sleep well, 1
A300, Book, English speaking, 1
...............................

, когда я хочу конвертировать фрейм данных как следующий формат с помощью приведенного ниже кода, он вызывает ошибку из-за более чем 10208 различных «продуктов».

Sales Order Number, book of python, book of java,how to sleep well,English speaking ..... 
            A123,        1,    2,     1,    0,    0,    0,...0
            A300,        0,    0,     0,    1,    0,    0,...0

(более 10K столбцов -> проблема с памятью)

basket = (df[df['Product Category'] == "Book"].groupby(['Sales Order Number', 'Product'])['SKU Quantity'].sum().unstack().reset_index().fillna(0).set_index('Sales Order Number'))

Могу ли я узнать какую-нибудь хорошую идею для решения этой проблемы, чтобы программа могла преобразовывать большие данные?

Спасибо

...