Я пытаюсь работать с большим набором данных, но просто поиграть с небольшой его частью.Каждая операция занимает много времени, и я хочу посмотреть на head
или limit
кадра данных.
Так, например, я вызываю UDF (пользовательскую функцию), чтобы добавить столбец,но я забочусь об этом только в первых, скажем, 10 строках.
sum_cols = F.udf(lambda x:x[0] + x[1], IntegerType())
df_with_sum = df.limit(10).withColumn('C',sum_cols(F.array('A','B')))
Однако это все равно займет столько же времени, сколько потребовалось бы, если бы я не использовал limit
.