Как развернуть большое количество данных - PullRequest
3 голосов
/ 28 марта 2019

Я работаю с таблицей в следующем формате: enter image description here

Я хотел бы повернуть ее, используя:

user_product_rating = df.pivot_table(index='review/userId', columns='product/productId', values='review/score')

Проблема заключается вчто есть 80k записей в оригинальной DF.И в Google Colab, и на моем компьютере заканчивается оперативная память.Есть ли эффективный способ достижения тех же результатов?

Редактировать: Данные, которые я использую Cell_Phones _ & _ Accessories.txt.gz .Я не могу определить время, всегда вылетает.

1 Ответ

0 голосов
/ 17 июня 2019

Для меня сейчас есть два варианта:

  1. Они типа столбца «обзор / оценка» уже не являются целочисленными, я бы попытался преобразовать его в тип int.

  2. Поскольку вам нужно выполнить только одну операцию в сводной таблице, вы можете использовать groupby:

user_product_rating = df.groupby(['review/userID'])['product/productID'].mean()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...