Scala / Java, Суммирование двух столбцов массивов в наборе данных - PullRequest
1 голос
/ 25 июня 2019

У меня есть следующий набор данных, в настоящее время использующий UDF для суммирования массивов.Производительность медленная, так как я использую UDF.

Вместо этого я собираюсь использовать функции высокого порядка или spark.sql.functions или любой другой эффективный способ суммирования массива.

Id  Country State    Vector_1                   Vector_2
1     US     IL   [1.0,2.0,3.0,4.0,5.0]   [5.0,5.0,5.0,5.0,5.0]

1     US     IL   [5.0,3.0,3.0,2.0,1.0]   [5.0,5.0,5.0,5.0,5.0]

2     US     TX   [6.0,7.0,8.0,9.0,1.0]   [1.0,1.0,1.0,1.0,1.0]

Вывод должен выглядеть следующим образом

Id  Country State    Vector_1                      Vector_2
1     US     IL   [6.0,5.0,6.0,6.0,6.0]    [10.0,10.0,10.0,10.0,10.0] 
2     US     TX    [6.0,7.0,8.0,9.0,1.0]    [1.0,1.0,1.0,1.0,1.0]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...