У меня около 5 миллионов маленьких (800 КБ) файлов, которые хранятся в AWS S3.Я хочу объединить их в более крупные файлы по ~ 100 МБ каждый, потому что работа по уменьшению карты для 5 миллионов небольших файлов имеет плохую производительность.
Что является хорошим способом объединения этих файлов?Я хотел бы сделать это быстро и эффективно.Я открыт для использования MapReduce, S3 API, независимо от того, как хорошо справляется работа.