Python Pyspark - группировка и суммирование НЕКОТОРЫХ данных - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть некоторые данные, которые выглядят так:

||Name || Week ||Spend ||    
||Jon || 4 || $20 ||    
||Jon || 2 || $10 ||    
||Jon || 1 || $20 ||    
||Jon || 10 || $10 ||    
||Linda|| 2 || $20 ||    
||Tran|| 3 || $10 ||    
||Tran|| 5 || $20 ||    
||Tran|| 4 || $10 ||    
||Tran|| 6 || $20 || 

Мне нужно извлечь первую неделю, в которую человек потратил деньги, и добавить расходы первых двух недель для этого человека.Например: для Джона, поскольку он потратил деньги в Wk1, мне нужно извлечь только 1-ю и 2-ю недели и суммировать их.Для Линды, поскольку это всего одна неделя, мне просто нужна эта неделя.Для Тран, поскольку она потратила деньги, начиная с Wk 3, мне нужна сумма расходов в Wk 3 и Wk4.

Я использую Pyspark в Python, так как фактический набор данных довольно большой, и пробовал grouby и т. Д., Но недобраться куда угодно.Любые идеи о том, как разбить это и код будет здорово!

Спасибо, Achal

...