Выберите разделы из pyspark dataframe - PullRequest
0 голосов
/ 01 октября 2019

Я относительно новичок в pyspark и пытаюсь получить выбранные разделы из фрейма данных.

У меня есть разделенный фрейм данных, и я хочу выбрать разделы на основе некоторых пользовательских критериев. Я смог сделать это

dataframe = dataframe.repartition(col1, col2)

def printfunc(partition):
    for row in partition:
        print(row)

dataframe.foreachPartition(printfunc)

Но я хочу выбрать несколько разделов и создать из них кадр данных

def validate_partition(partition):
    if condition:
        reqd_partitions.append(partition)
    else:
        print("unwanted partition")


dataframe.foreachPartition(validate_partition)

создать кадр данных из выбранных разделов

reqd_dataframe = create_dataframe(reqd_partitions)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...