Question

У меня есть фрейм данных pyspark с примерно 10 тысячами записей ，, когда я использую pyspark api для выгрузки всего набора данных.Это займет 10 секунд.Пока я использую фильтр api, чтобы выбрать 10 записей и снова вывести дамп temp_df.Это займет 8 секунд. Почему это займет так много времени?Как я могу улучшить это?Спасибо!

MLUtils.convertVectorColumnsToML(dataframe).write.format("libsvm").save('path'), mode='overwrite'),

temp_df = dataframe.filter(train_df['__index'].between(int(0,10))

pyspark dataframe.write.format ("libsvm"). save () занимает слишком много времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark dataframe.write.format ("libsvm"). save () занимает слишком много времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов