У меня есть некоторые данные, которые выглядят так:
||Name || Week ||Spend ||
||Jon || 4 || $20 ||
||Jon || 2 || $10 ||
||Jon || 1 || $20 ||
||Jon || 10 || $10 ||
||Linda|| 2 || $20 ||
||Tran|| 3 || $10 ||
||Tran|| 5 || $20 ||
||Tran|| 4 || $10 ||
||Tran|| 6 || $20 ||
Мне нужно извлечь первую неделю, в которую человек потратил деньги, и добавить расходы первых двух недель для этого человека.Например: для Джона, поскольку он потратил деньги в Wk1, мне нужно извлечь только 1-ю и 2-ю недели и суммировать их.Для Линды, поскольку это всего одна неделя, мне просто нужна эта неделя.Для Тран, поскольку она потратила деньги, начиная с Wk 3, мне нужна сумма расходов в Wk 3 и Wk4.
Я использую Pyspark в Python, так как фактический набор данных довольно большой, и пробовал grouby и т. Д., Но недобраться куда угодно.Любые идеи о том, как разбить это и код будет здорово!
Спасибо, Achal