Я пытаюсь определить, какой оптимальный размер файла при разбиении данных Parquet на S3. AWS рекомендует избегать файлов размером менее 128 МБ . Но есть ли рекомендуемый максимальный размер файла?
Databricks рекомендует, чтобы файлов было около 1 ГБ , но мне не ясно, относится ли это только к HDFS. Я знаю, что оптимальный размер файла зависит от размера блока HDFS. Однако у S3 нет понятия размера блока.
Есть мысли?