Различает все столбцы в списке из Spark DataFrame - PullRequest
0 голосов
/ 20 октября 2019

У меня есть фрейм данных, как показано ниже, и я хочу преобразовать в ожидаемый формат в виде отдельных значений в списке.

+---------------------+---------------+
|col1                 |col2           |
+---------------------+---------------+
|                  A  |             1 |
|                  B  |             2 |
|                  C  |             1 |
|                  D  |             1 |
|                  A  |             2 |
|               null  |             1 |
+---------------------+---------------+

Ожидаемый формат

+---------------------+---------------+
|col1                 |col2           |
+---------------------+---------------+
|      [A,B,C,D,null] |         [1,2] |
+---------------------+---------------+

Есть ли какие-либо способы решения вышеуказанной проблемы .??

Заранее спасибо !!

1 Ответ

1 голос
/ 20 октября 2019

Вы можете сделать что-то вроде этого

import spark.implicits._

df
  .na.fill("null", Seq("col1"))
  .agg(
     func.collect_set($"col1").alias("col1"),
     func.collect_set($"col2").alias("col2")
  )
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...