Question

Я хочу применить пользовательское разбиение при работе с данным DataFrame. Я обнаружил, что RDD groupBy предоставляет мне желаемую функциональность. Теперь, когда я говорю

dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)

, я получаю PythonRDD, который имеет кортеж в качестве ключа и ResultIterator в качестве значения. Что я хочу сделать дальше, так это преобразовать это обратно в DataFrame, поскольку я хочу использовать функцию apply для GroupedData. Я пробовал несколько вещей, но пока мне не повезло.

Любая помощь будет принята с благодарностью!

Группа Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Группа Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы