У меня есть датафрейм, похожий на этот
Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]
Я хотел бы сгруппировать по _2
, отсортировать каждую группу, выполнить итерацию по каждой группе и выполнить некоторые вычисления (на основе имен файлов. Как я могу это сделать?
Я пытался сделать
In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>
но я не знаю, как работать с GroupedData.