Итерация для каждого элемента в кадре данных, который удовлетворяет определенным условиям, 700 миллионов строк - PullRequest
0 голосов
/ 24 октября 2019

У меня есть фрейм данных, скажем:

 A    B     C      
Day   ID   100
Day   ID2  90
Day   ID3  85
Day   ID4  70
Day2  ID   65
Day2  ID2  47
Day2  ID3  69
Day2  ID4  90

Мне нужно сделать следующий расчет:

Для каждого идентификатора (значения в столбце B) и для каждого периода времени (значения встолбец A), возьмите значение в столбце C (в данном случае 100) и вычтите его из каждого значения столбца C каждого значения столбца B.

Таким образом, два новых столбца, которые создает этот расчет, будут:

D            F        G
ID-ID2      10       Day
ID-ID3      15       Day
ID-ID4      30       Day
ID-ID2      18       Day2
ID-ID3      -4       Day2
ID-ID4      -25      Day2

Это будет 1 файл (возможно, записанный в CSV или сохраненный в базе данных SQL)

следующий файл будет:

D            F       G
ID2-ID      -10      Day
ID2-ID3      5       Day
ID2-ID4      20      Day
ID2-ID       -18     Day2
ID2-ID3      -22     Day2
ID2-ID4      -43     Day2

и т. Д. .... (следующим будет ID3)

Если вы можете помочь, возможно, только с одной порцией, которая была бы удивительной.

Концептуально мне трудно сформулировать логикукак добиться эффективного расчета. Набор данных для этого составляет 70 миллионов строк в год, и мне нужно выполнить эти вычисления за 10 лет до этого, то есть примерно 700 миллионов строк данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...