Мы знаем, что установка parquet.block.size
в качестве размера блока HDFS рекомендуется, но это имеет значение для HDFS .
При записи в облачные хранилища как s3 или gs , имеет ли значение установка parquet.block.size
Что происходит с параллелизмом, для последующих заданий, использующих эти данные в случаяхкак показано ниже?
Например:
Если я записываю искровой кадр данных, размером ~ 20 ГБ в с3 или gs
- каждый .parquetразмер файла 2 ГБ, с настройкой parquet.block.size = 512 МБ
- каждый .parquet размер файла 2 ГБ, с настройкой parquet.block.size = 64 МБ