Имеет ли значение установка parquet.block.size при записи в s3 или gs? - PullRequest
0 голосов
/ 19 сентября 2019

Мы знаем, что установка parquet.block.size в качестве размера блока HDFS рекомендуется, но это имеет значение для HDFS .

  1. При записи в облачные хранилища как s3 или gs , имеет ли значение установка parquet.block.size

  2. Что происходит с параллелизмом, для последующих заданий, использующих эти данные в случаяхкак показано ниже?

Например:

Если я записываю искровой кадр данных, размером ~ 20 ГБ в с3 или gs

  • каждый .parquetразмер файла 2 ГБ, с настройкой parquet.block.size = 512 МБ
  • каждый .parquet размер файла 2 ГБ, с настройкой parquet.block.size = 64 МБ

1 Ответ

0 голосов
/ 21 сентября 2019

Да, размер блока все еще может иметь значение для S3.Если вы хотите использовать S3 Выберите для запроса строк из файлов паркета, существуют верхние пределы размера блока, которые вы можете использовать.Из « Выбор содержимого из объектов » для S3 Select:

При использовании Amazon S3 Select с объектами Parquet применяются дополнительные ограничения:

  • ...
  • Максимальный размер несжатого блока составляет 256 МБ.
...