проблема с входным файлом gzip размером> 64 МБ - PullRequest
0 голосов
/ 06 февраля 2012

Я запускаю потоковое задание Hadoop, в котором есть только картографы, но нет редукторов.Я даю этой работе 4 входных файла, которые все разархивированы, чтобы убедиться, что каждый входной файл отправляется одному мапперу.Два входных файла в сжатом формате имеют размер менее 64 МБ, тогда как два других входных файла в сжатом формате имеют размер более 64 МБ.Задание выполняется в течение длительного времени, около 40 минут, а затем завершается неудачно, сообщая: «Ошибка: число неудачных задач карты превысило допустимый предел».Обычно задание не должно занимать более 1 минуты, не знаю, почему оно продолжалось в течение 40 минут

Когда я проверяю выходной каталог, я вижу, что выходные данные генерируются для двух сжатых входных файлов с размером <64 МБ ивыходные данные не генерируются для сжатых входных файлов с размером> 64 МБ.

Кто-нибудь видел такое поведение?

Я вижу следующие сообщения при запуске задания (я не вижу, если я передаюфайлы меньшего размера (<64 МБ) в качестве входных данных для задания) </p>

12/02/06 10:39:10 INFO mapred.FileInputFormat: общее количество входных путей для обработки: 2 12/02/06 10:39: 10 INFO net.NetworkTopology: добавление нового узла: /10.209.191.0/10.209.191.57:1004 12/02/06 10:39:10 INFO net.NetworkTopology: добавление нового узла: /10.209.191.0/10.209.191.50: 1004 02.12.06 10:39:10 ИНФОРМАЦИЯ net.NetworkTopology: добавление нового узла: /10.209.186.0/10.209.186.28:1004 12/02/06 10:39:10 ИНФО net.NetworkTopology: добавление новогоузел: /10.209.188.0/10.209.188.48:1004 12.02.06 10:39:10 ИНФО net.NetworkTopology: Добавлениеew node: /10.209.185.0/10.209.185.50:1004 12/02/06 10:39:10 INFO net.NetworkTopology: Добавление нового узла: /10.209.188.0/10.209.188.35:1004

1 Ответ

0 голосов
/ 06 февраля 2012

Если вы определили свою собственную производную FileInputFormat, то я подозреваю, что вы столкнулись с этой ошибкой: https://issues.apache.org/jira/browse/MAPREDUCE-2094

Если у вас есть, я рекомендую скопировать реализацию метода isSplitable из TextInputFormat в ваш собственный класс.

...