Я создаю RDD и Dataframe из файла размером ~ 700 МБ и пытаюсь сохранить его обратно в виде текстового файла и без преобразований между ними.
Когда я читаю файл с фрейм данных и сохраните его обратно как текстовый файл.
df = spark.read.text(filepath)
df.write.save(filepath_to_save)
Это прекрасно работает без ошибок, и я вижу хорошо сохраненный файл.
Но когда я читаю тот же файл, что и RDD, и сохраните его обратно в виде текстового файла.
rdd= spar.sparkContext.textFile(filepath)
rdd.saveAsTextFile(filepath_to_save)
Это не работает для java .lang.OutOfMemoryError: Запрошенный размер массива превышает ограничение VM
I Пожалуйста, помогите понять причину.