Я хочу применить пользовательское разбиение при работе с данным DataFrame. Я обнаружил, что RDD groupBy предоставляет мне желаемую функциональность. Теперь, когда я говорю
dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)
, я получаю PythonRDD
, который имеет кортеж в качестве ключа и ResultIterator
в качестве значения. Что я хочу сделать дальше, так это преобразовать это обратно в DataFrame, поскольку я хочу использовать функцию apply для GroupedData
. Я пробовал несколько вещей, но пока мне не повезло.
Любая помощь будет принята с благодарностью!