Pyspark перебирает сгруппированные данные - PullRequest
0 голосов
/ 05 апреля 2019

У меня есть датафрейм, похожий на этот

Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]

Я хотел бы сгруппировать по _2, отсортировать каждую группу, выполнить итерацию по каждой группе и выполнить некоторые вычисления (на основе имен файлов. Как я могу это сделать?

Я пытался сделать

In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>

но я не знаю, как работать с GroupedData.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...