Оптимальный максимальный размер файла паркета в S3 - PullRequest
0 голосов
/ 07 марта 2019

Я пытаюсь определить, какой оптимальный размер файла при разбиении данных Parquet на S3. AWS рекомендует избегать файлов размером менее 128 МБ . Но есть ли рекомендуемый максимальный размер файла?

Databricks рекомендует, чтобы файлов было около 1 ГБ , но мне не ясно, относится ли это только к HDFS. Я знаю, что оптимальный размер файла зависит от размера блока HDFS. Однако у S3 нет понятия размера блока.

Есть мысли?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...