У меня есть фрейм данных pyspark с примерно 10 тысячами записей ,, когда я использую pyspark api для выгрузки всего набора данных.Это займет 10 секунд.Пока я использую фильтр api, чтобы выбрать 10 записей и снова вывести дамп temp_df.Это займет 8 секунд. Почему это займет так много времени?Как я могу улучшить это?Спасибо!
MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),
temp_df = dataframe.filter(train_df['__index'].between(int(0,10))