Записать огромный массив данных pyspark в EFS в паркетах - PullRequest
1 голос
/ 23 февраля 2020

У меня огромные файлы данных размером 25 ГБ. Я считываю целые данные в фрейм данных pyspark, используя spark.read.load(filenamesList, format='csv', header=None), и записываю весь фрейм данных в несколько паркетов на основе значения столбца 'mycolumn', используя df.write.partitionBy('mycolumn').parquet(path to EFS location). На этом этапе я получаю эту ошибку: java.io.IOException: No space left on device

Поскольку я пишу файлы в папку EFS, проблема с пространством не возникает. Может кто-нибудь помочь мне понять это?

...