Проблема с Spark-scala Join. В поисках лучшего подхода - PullRequest
0 голосов
/ 11 декабря 2019

У меня есть 2 DF, как показано ниже.

+---+---+---+
|  M| c2| c3|
+---+---+---+
|  1|  2|  3|
|  2|  3|  4|
+---+---+---+

+---+---+---+
|  M| c2| c3|
+---+---+---+
|  1| 20| 30|
|  2| 30| 40|
+---+---+---+

Какой должен быть лучший подход для получения нового кадра данных, как показано ниже. Это означает, что новый DF имеет имена столбцов c2 и c3, но значение равноconcat( df1("c1"),df1("c2") ), но с тем же именем столбца. Я могу сделать это с помощью df3.withColumn("c2_new",concat( df1("c2"),df2("c2") )) и затем переименовать новый столбец в C2. Но я имею в виду, что у меня в DF более 150 столбцов. Какой подход должен быть лучшим здесь?

+---+------+-----+
|  M| c2  |   c3 |
+---+-----+------+
|  1| 2_20|  3_30|
|  2| 3_30|  4_40|
+---+------+-----+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...