Исходя из таких вопросов, как этот и этот один, я задал себе вопрос, оказывает ли spark.rdd.compress
также эффект при сохранении кадра данных, который разделен на уровне RDD, в (например) паркетный стол.
Или, может быть, другими словами: spark.rdd.compress
также сжимает таблицу, которую я создаю, когда использую dataframe.write.saveAsTable(...)
?
Взятый из документов , spark.rdd.compress выполняет следующие действия:
Сжатие ли сериализованных разделов RDD (например, для
StorageLevel.MEMORY_ONLY_SER в Java и Scala или
StorageLevel.MEMORY_ONLY в Python). Может сэкономить значительное пространство на
стоимость дополнительного процессорного времени . Сжатие будет использовать
spark.io.compression.codec.
Итак, дополнительно, если такое сжатие сработает, потребуются ли дополнительные ЦП для повторного извлечения данных из такой таблицы?