Это связано с умозрительным исполнением в hadoop. Это возможность для Hadoop указывать задачи резервного копирования, если он обнаруживает медленные задачи на нескольких узлах кластера. Задачи резервного копирования будут преимущественно запланированы на более быстрых узлах. Какой из дубликатов задач завершается первым, тот, который используется в дальнейших операциях.
Вы можете отключить это, установив следующий параметр как false
mapred.reduce.tasks.speculative.execution