Группировать по элементам в списке - PullRequest
0 голосов
/ 09 октября 2019

Я новичок в PySpark. Я создал искровой фрейм данных, и у меня есть столбец «Страны», который содержит список стран. Как я могу сгруппировать мой фрейм данных по отдельным странам, которые есть в списке стран

+-----------------+
|        countries|
+-----------------+
|  [Россия, Китай]|
| [Великобритания]|
|       [Норвегия]|
|         [Россия]|
|               []|
|            [США]|
|         [Россия]|
|            [США]|
|               []|
|         [Россия]|
|               []|
|               []|
|         [Италия]|
| [Россия, Грузия]|
|            [США]|
|               []|
|               []|
|               []|
|[Великобритания ]|
|       [Беларусь]|
+-----------------+

1 Ответ

0 голосов
/ 09 октября 2019

вы можете посмотреть в официальном документе PySpark. С помощью groupBy, который является частью модуля pyspark.sql, функция u может группировать ваш фрейм данных. Последний документ PySpark Если вы хотите сгруппировать по нескольким столбцам, вы можете просто передать список с * listname.

data_frame_name.groupBy("countries")
...