Amazon Elastic MapReduce: количество запущенных задач карты - PullRequest
0 голосов
/ 12 мая 2010

В «системном журнале» для шага потока заданий MapReduce я вижу следующее:

Job Counters
  Launched reduce tasks=4
  Launched map tasks=39

Включает ли число запущенных задач карты неудачные задачи?

Я использую класс NLineInputFormat в качестве входного формата для управления количеством задач карты. Однако иногда я получаю немного разные числа для одного и того же ввода или в зависимости от количества экземпляров (10, 15 и 20).

Может кто-нибудь сказать мне, почему я вижу различное количество запущенных задач?

1 Ответ

2 голосов
/ 11 июля 2010

Скорее всего, это спекулятивное выполнение. Когда у Hadoop есть доступные ресурсы, он может предпочесть выполнить две попытки одной и той же задачи одновременно. Запущенные задачи включают все задачи, запущенные независимо от того, выполняются ли они позднее, сбой (из-за исключений) или убиты (из-за вмешательства администратора или умозрительного выполнения, убивающего «более медленную» задачу после ее «более быстрого» выполнения).

Общее количество задач - не выполнено - уничтожено, вероятно, будет одинаковым между запусками.

Надеюсь, это поможет.

...