Группа Pyspark - PullRequest
       16

Группа Pyspark

0 голосов
/ 04 августа 2020

Я хочу применить пользовательское разбиение при работе с данным DataFrame. Я обнаружил, что RDD groupBy предоставляет мне желаемую функциональность. Теперь, когда я говорю

dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)

, я получаю PythonRDD, который имеет кортеж в качестве ключа и ResultIterator в качестве значения. Что я хочу сделать дальше, так это преобразовать это обратно в DataFrame, поскольку я хочу использовать функцию apply для GroupedData. Я пробовал несколько вещей, но пока мне не повезло.

Любая помощь будет принята с благодарностью!

...