У меня есть фрейм данных, скажем:
A B C
Day ID 100
Day ID2 90
Day ID3 85
Day ID4 70
Day2 ID 65
Day2 ID2 47
Day2 ID3 69
Day2 ID4 90
Мне нужно сделать следующий расчет:
Для каждого идентификатора (значения в столбце B) и для каждого периода времени (значения встолбец A), возьмите значение в столбце C (в данном случае 100) и вычтите его из каждого значения столбца C каждого значения столбца B.
Таким образом, два новых столбца, которые создает этот расчет, будут:
D F G
ID-ID2 10 Day
ID-ID3 15 Day
ID-ID4 30 Day
ID-ID2 18 Day2
ID-ID3 -4 Day2
ID-ID4 -25 Day2
Это будет 1 файл (возможно, записанный в CSV или сохраненный в базе данных SQL)
следующий файл будет:
D F G
ID2-ID -10 Day
ID2-ID3 5 Day
ID2-ID4 20 Day
ID2-ID -18 Day2
ID2-ID3 -22 Day2
ID2-ID4 -43 Day2
и т. Д. .... (следующим будет ID3)
Если вы можете помочь, возможно, только с одной порцией, которая была бы удивительной.
Концептуально мне трудно сформулировать логикукак добиться эффективного расчета. Набор данных для этого составляет 70 миллионов строк в год, и мне нужно выполнить эти вычисления за 10 лет до этого, то есть примерно 700 миллионов строк данных.