Панды группового из памяти - PullRequest
0 голосов
/ 02 октября 2018

Я добавляю столбец в фрейм данных, вычисляя количество дней между каждой предыдущей датой для каждого из клиентов по следующей формуле, но у меня заканчивается нехватка памяти

lapsed['Days']=lapsed[['Customer Number','GL Date']].groupby(['Customer Number']).diff()

Фрейм данных содержит большечем 1 млн записей

Номер клиента - это int64, и я подумал выполнить вышеуказанное утверждение в диапазоне диапазонов чисел, но я не знаю, является ли это лучшим подходом

Есть ли какие-либо предложения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...