У меня есть фрейм данных, как показано ниже:
+-----+------------------------+
|Index| finalArray |
+-----+------------------------+
|1 |[0, 2, 0, 3, 1, 4, 2, 7]|
|2 |[0, 4, 4, 3, 4, 2, 2, 5]|
+-----+------------------------+
Я хочу разбить массив на куски по 2, а затем найти сумму каждого куска и сохранить результирующий массив в столбце finalArray. Это будет выглядеть ниже:
+-----+---------------------+
|Index| finalArray |
+-----+---------------------+
|1 |[2, 3, 5, 9] |
|2 |[4, 7, 6, 7] |
+-----+---------------------+
Я могу сделать это, создав UDF, но в поисках лучшего и оптимизированного способа. Предпочтительно, если я могу обработать это, используя withColumn и передавая flagArray, чтобы сделать это без необходимости писать UDF.
@udf(ArrayType(DoubleType()))
def aggregate(finalArray,chunkSize):
n = int(chunkSize)
aggsum = []
final = [finalArray[i * n:(i + 1) * n] for i in range((len(finalArray) + n - 1) // n )]
for item in final:
agg = 0
for j in item:
agg += j
aggsum.append(agg)
return aggsum
Я не могу использовать приведенное ниже выражение в UDF, поэтому я использовал циклы
[sum(finalArray[x:x+2]) for x in range(0, len(finalArray), chunkSize)]