В настоящее время я работаю над внедрением системы регистрации для нового кластера Hadoop, который я настроил.Я всегда видел эти настройки в прошлом, когда журналы делились по дням с отдельными файлами, размер которых примерно в 10 раз превышал размер блока HDFS.У меня не было проблем с этой методологией, когда мне нужно было ее использовать, но после обсуждения с коллегой, который хотел хранить журналы в одном длинном файле, я понял, что не совсем уверен, почему методология 10x, которую я упомянулиспользовался.Я могу подумать о следующих причинах:
- задания mapreduce будут выполняться значительно быстрее, если нас интересует только пара дней.
- файлы могут быть заархивированы / tar'd /lzo'd для экономии места.
Есть ли другие?Я действительно не мог понять, почему люди шардируют файлы в течение одного дня по уровню размера блока HDFS 10x.Я полагаю, что для моих теоретических знаний было бы очень полезно узнать больше о философии, почему журналы хранятся в разных размерах.