Я использовал AWS EMR (потоковую передачу Hadoop) для обработки входных данных 648 МБ в 9 текстовых файлах (около 72 МБ каждый хранится в s3). Я думал, что данные разбиты на блоки по 64 МБ или 128 МБ, но в журнале говорится, что они разбиты на 27 задач карты (я думаю, что одна задача карты использует один картограф, верно?) Может кто-нибудь объяснить, что происходит. Я также не понимаю, почему время процессора всей работы отличается каждый раз.
Кроме того, мне кажется, что EMR сильно отличается от Hadoop, и как рассчитать количество экземпляров, которые следует использовать с EMR? Если я использую s3 для хранения данных, мне не нужно беспокоиться о коэффициенте репликации, верно?