Я пытаюсь сгруппировать указанный ниже набор данных на основе столбца «id» и поэлементно суммировать массивы в столбце «values». Как мне это сделать в Spark, используя Scala?
Ввод: (набор данных из 2 столбцов, столбец 1 типа String и столбец 2 типа Array [Int])
| id | values |
---------------
| A | [12,61,23,43]
| A | [43,11,24,45]
| B | [32,12,53,21]
| C | [11,12,13,14]
| C | [43,52,12,52]
| B | [33,21,15,24]
Ожидаемый результат: (набор данных или фрейм данных)
| id | values |
---------------
| A | [55,72,47,88]
| B | [65,33,68,45]
| C | [54,64,25,66]
Примечание:
Результат должен быть гибким и динамичным. То есть, даже если существует 1000 столбцов или даже если файл имеет несколько ТБ или ПБ, решение все равно остается в силе.