Spark Dataframe - Расчет пар между столбцами (Scala) - PullRequest
0 голосов
/ 06 ноября 2018

У меня следующая ситуация: у меня есть фрейм данных с «id» и «array» в качестве схемы. Теперь я хочу получить для каждого массива все списки пар с соответствующим идентификатором и снова сохранить его в кадре данных. Так, например:

Это исходный фрейм данных:

+---+----------+
| id|candidates|
+---+----------+
|  1|    [2, 3]|
|  2|       [3]|
+---+----------+

А вот так должно выглядеть после вычисления:

+---+---+
|id1|id2|
+---+---+
|  1|  2|
|  1|  3|
|  2|  3|
+---+---+

Может быть, у кого-то есть идея для этой проблемы?

С уважением

Седир Мухаммед

1 Ответ

0 голосов
/ 06 ноября 2018

Хорошо, спасибо @cheseaux Я нашел ответ! Есть просто функция explode_outer:

    candidatesDF.withColumn("candidates", explode_outer($"candidates")).show
...