Question

У меня огромные файлы данных размером 25 ГБ. Я считываю целые данные в фрейм данных pyspark, используя spark.read.load(filenamesList, format='csv', header=None), и записываю весь фрейм данных в несколько паркетов на основе значения столбца 'mycolumn', используя df.write.partitionBy('mycolumn').parquet(path to EFS location). На этом этапе я получаю эту ошибку: java.io.IOException: No space left on device

Поскольку я пишу файлы в папку EFS, проблема с пространством не возникает. Может кто-нибудь помочь мне понять это?

Записать огромный массив данных pyspark в EFS в паркетах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Записать огромный массив данных pyspark в EFS в паркетах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы