Question

У меня есть датафрейм, похожий на этот

Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]

Я хотел бы сгруппировать по _2, отсортировать каждую группу, выполнить итерацию по каждой группе и выполнить некоторые вычисления (на основе имен файлов. Как я могу это сделать?

Я пытался сделать

In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>

но я не знаю, как работать с GroupedData.

Pyspark перебирает сгруппированные данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark перебирает сгруппированные данные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов