Сравнение и редактирование строк в наборах данных Spark - PullRequest
0 голосов
/ 19 сентября 2019

У меня есть набор данных со следующим форматом более или менее.

--------------------------------------
| level |  key1  | key2 | key3 | key4|
--------------------------------------
|   1   |    A   |  B   |  C   |  D  |
--------------------------------------
|  2    |    A   |   B  |  C   |  Z  |
--------------------------------------

Что бы я хотел знать, каков наилучший подход для перебора и сравнения строк обоих наборов данных.
Простой пример, скажем, я хотел бы сгруппировать по столбцу 'level' и вставить любое значение на уровне 2, которое больше, чем тот же столбец на уровне 1, в приведенном выше примере key4 уровня 1 станет 'Z'.
Я вижу, что 'groupBy' и оконные функции являются mopre для изоляции групп и выполнения над ними действий, но мне нужно сравнить строки между двумя наборами данных.
Любой совет, пока я смотрю в Интернете?

...