У меня огромные файлы данных размером 25 ГБ. Я считываю целые данные в фрейм данных pyspark, используя spark.read.load(filenamesList, format='csv', header=None)
, и записываю весь фрейм данных в несколько паркетов на основе значения столбца 'mycolumn', используя df.write.partitionBy('mycolumn').parquet(path to EFS location)
. На этом этапе я получаю эту ошибку: java.io.IOException: No space left on device
Поскольку я пишу файлы в папку EFS, проблема с пространством не возникает. Может кто-нибудь помочь мне понять это?