У меня есть следующий набор данных, в настоящее время использующий UDF для суммирования массивов.Производительность медленная, так как я использую UDF.
Вместо этого я собираюсь использовать функции высокого порядка или spark.sql.functions или любой другой эффективный способ суммирования массива.
Id Country State Vector_1 Vector_2
1 US IL [1.0,2.0,3.0,4.0,5.0] [5.0,5.0,5.0,5.0,5.0]
1 US IL [5.0,3.0,3.0,2.0,1.0] [5.0,5.0,5.0,5.0,5.0]
2 US TX [6.0,7.0,8.0,9.0,1.0] [1.0,1.0,1.0,1.0,1.0]
Вывод должен выглядеть следующим образом
Id Country State Vector_1 Vector_2
1 US IL [6.0,5.0,6.0,6.0,6.0] [10.0,10.0,10.0,10.0,10.0]
2 US TX [6.0,7.0,8.0,9.0,1.0] [1.0,1.0,1.0,1.0,1.0]