Я относительно новичок в pyspark и пытаюсь получить выбранные разделы из фрейма данных.
У меня есть разделенный фрейм данных, и я хочу выбрать разделы на основе некоторых пользовательских критериев. Я смог сделать это
dataframe = dataframe.repartition(col1, col2)
def printfunc(partition):
for row in partition:
print(row)
dataframe.foreachPartition(printfunc)
Но я хочу выбрать несколько разделов и создать из них кадр данных
def validate_partition(partition):
if condition:
reqd_partitions.append(partition)
else:
print("unwanted partition")
dataframe.foreachPartition(validate_partition)
создать кадр данных из выбранных разделов
reqd_dataframe = create_dataframe(reqd_partitions)