pyspark dataframe.write.format ("libsvm"). save () занимает слишком много времени - PullRequest
0 голосов
/ 27 сентября 2019

У меня есть фрейм данных pyspark с примерно 10 тысячами записей ,, когда я использую pyspark api для выгрузки всего набора данных.Это займет 10 секунд.Пока я использую фильтр api, чтобы выбрать 10 записей и снова вывести дамп temp_df.Это займет 8 секунд. Почему это займет так много времени?Как я могу улучшить это?Спасибо!

MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),

temp_df = dataframe.filter(train_df['__index'].between(int(0,10))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...