Question

Я создаю RDD и Dataframe из файла размером ~ 700 МБ и пытаюсь сохранить его обратно в виде текстового файла и без преобразований между ними.

Когда я читаю файл с фрейм данных и сохраните его обратно как текстовый файл.

df = spark.read.text(filepath)
df.write.save(filepath_to_save)

Это прекрасно работает без ошибок, и я вижу хорошо сохраненный файл.

Но когда я читаю тот же файл, что и RDD, и сохраните его обратно в виде текстового файла.

rdd= spar.sparkContext.textFile(filepath)
rdd.saveAsTextFile(filepath_to_save)

Это не работает для java .lang.OutOfMemoryError: Запрошенный размер массива превышает ограничение VM

I Пожалуйста, помогите понять причину.

Pyspark: чтение файла в RDD Vs Dataframe

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.