Я работаю над Apache spark 2.3.0 cloudera4, и у меня проблема с обработкой Dataframe.
У меня есть этот входной фрейм данных:
+---+---+----+
| id| d1| d2 |
+---+---+----+
| 1| | 2.0|
| 2| |-4.0|
| 3| | 6.0|
| 4|3.0| |
+---+---+----+
И я нужен этот вывод:
+---+---+----+----+
| id| d1| d2 | r |
+---+---+----+----+
| 1| | 2.0| 7.0|
| 2| |-4.0| 5.0|
| 3| | 6.0| 9.0|
| 4|3.0| | 3.0|
+---+---+.---+----+
То есть, с точки зрения итерации, получить самую большую строку идентификатора (4) и поместить значение d1 в столбец r, затем взять следующую строку (3) и положить r [4] + d2 [3] в столбце r и т. Д.
Возможно ли сделать что-то подобное в Spark? потому что мне понадобится вычисленное значение из строки, чтобы вычислить значение для другой строки.