spark.rdd.compress и его эффект для сохранения таблиц - PullRequest
0 голосов
/ 06 июня 2019

Исходя из таких вопросов, как этот и этот один, я задал себе вопрос, оказывает ли spark.rdd.compress также эффект при сохранении кадра данных, который разделен на уровне RDD, в (например) паркетный стол.
Или, может быть, другими словами: spark.rdd.compress также сжимает таблицу, которую я создаю, когда использую dataframe.write.saveAsTable(...)?

Взятый из документов , spark.rdd.compress выполняет следующие действия:

Сжатие ли сериализованных разделов RDD (например, для StorageLevel.MEMORY_ONLY_SER в Java и Scala или StorageLevel.MEMORY_ONLY в Python). Может сэкономить значительное пространство на стоимость дополнительного процессорного времени . Сжатие будет использовать spark.io.compression.codec.

Итак, дополнительно, если такое сжатие сработает, потребуются ли дополнительные ЦП для повторного извлечения данных из такой таблицы?

1 Ответ

1 голос
/ 06 июня 2019

Сжигает ли spark.rdd.compress также таблицу, создаваемую мной при использовании dataframe.write.saveAsTable (...)

Не будет и не будетRDD тонет.

Как указано в цитируемой вами документации, это применимо только для сериализованного (_SER) кэширования.Это не имеет ничего общего с внешним хранилищем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...