преобразование данных в pyspark с уникальными значениями столбцов - PullRequest
0 голосов
/ 30 января 2020

Я пытаюсь изучить pysaprk с sql функциональными возможностями или по группе данных по самому решению.

Спасибо.

df1:

Name     Place     Product
AA       Germany   pencil
AA       Germany   pen
AA       Germany   pen
BB       Holland   hat
BB       Holland   hat
BB       Holland   pen
CC       USA       laptop
CC       USA       laptop
CC       USA       charger

Ожидаемый результат:

Name     Place     Product
AA       Germany   pencil, pen
BB       Holland   hat, pen
CC       USA       laptop, charger

1 Ответ

1 голос
/ 30 января 2020

Вы можете использовать collect_set как

df.groupBy("Name","Place").agg(concat_ws(",",collect_set("Product")))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...