Слишком много ошибок выборки: Hadoop в кластере (x2) - PullRequest
3 голосов
/ 20 мая 2011

Я использую Hadoop в течение последней недели или около того (пытаясь разобраться с ним), и хотя мне удалось настроить многоузловой кластер (2 машины: 1 ноутбук и небольшой рабочий стол) и получить результатыМне всегда кажется, что я сталкиваюсь с "слишком большим количеством ошибок извлечения", когда я запускаю задание hadoop.

Пример вывода (на простом примере WordCount):

hadoop@ap200:/usr/local/hadoop$ bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount sita sita-output3X
11/05/20 15:02:05 INFO input.FileInputFormat: Total input paths to process : 7
11/05/20 15:02:05 INFO mapred.JobClient: Running job: job_201105201500_0001
11/05/20 15:02:06 INFO mapred.JobClient:  map 0% reduce 0%
11/05/20 15:02:23 INFO mapred.JobClient:  map 28% reduce 0%
11/05/20 15:02:26 INFO mapred.JobClient:  map 42% reduce 0%
11/05/20 15:02:29 INFO mapred.JobClient:  map 57% reduce 0%
11/05/20 15:02:32 INFO mapred.JobClient:  map 100% reduce 0%
11/05/20 15:02:41 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:02:49 INFO mapred.JobClient: Task Id :      attempt_201105201500_0001_m_000003_0, Status : FAILED
Too many fetch-failures
11/05/20 15:02:53 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:02:57 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:10 INFO mapred.JobClient: Task Id : attempt_201105201500_0001_m_000002_0, Status : FAILED
Too many fetch-failures
11/05/20 15:03:14 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:03:17 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:25 INFO mapred.JobClient: Task Id : attempt_201105201500_0001_m_000006_0, Status : FAILED
Too many fetch-failures
11/05/20 15:03:29 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:03:32 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:35 INFO mapred.JobClient:  map 100% reduce 28%
11/05/20 15:03:41 INFO mapred.JobClient:  map 100% reduce 100%
11/05/20 15:03:46 INFO mapred.JobClient: Job complete: job_201105201500_0001
11/05/20 15:03:46 INFO mapred.JobClient: Counters: 25
11/05/20 15:03:46 INFO mapred.JobClient:   Job Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Launched reduce tasks=1
11/05/20 15:03:46 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=72909
11/05/20 15:03:46 INFO mapred.JobClient:     Total time spent by all reduces waiting  after reserving slots (ms)=0
11/05/20 15:03:46 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
11/05/20 15:03:46 INFO mapred.JobClient:     Launched map tasks=10
11/05/20 15:03:46 INFO mapred.JobClient:     Data-local map tasks=10
11/05/20 15:03:46 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=76116
11/05/20 15:03:46 INFO mapred.JobClient:   File Output Format Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Bytes Written=1412473
11/05/20 15:03:46 INFO mapred.JobClient:   FileSystemCounters
11/05/20 15:03:46 INFO mapred.JobClient:     FILE_BYTES_READ=4462381
11/05/20 15:03:46 INFO mapred.JobClient:     HDFS_BYTES_READ=6950740
11/05/20 15:03:46 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=7546513
11/05/20 15:03:46 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=1412473
11/05/20 15:03:46 INFO mapred.JobClient:   File Input Format Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Bytes Read=6949956
11/05/20 15:03:46 INFO mapred.JobClient:   Map-Reduce Framework
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce input groups=128510
11/05/20 15:03:46 INFO mapred.JobClient:     Map output materialized bytes=2914947
11/05/20 15:03:46 INFO mapred.JobClient:     Combine output records=201001
11/05/20 15:03:46 INFO mapred.JobClient:     Map input records=137146
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce shuffle bytes=2914947
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce output records=128510
11/05/20 15:03:46 INFO mapred.JobClient:     Spilled Records=507835
11/05/20 15:03:46 INFO mapred.JobClient:     Map output bytes=11435785
11/05/20 15:03:46 INFO mapred.JobClient:     Combine input records=1174986
11/05/20 15:03:46 INFO mapred.JobClient:     Map output records=1174986
11/05/20 15:03:46 INFO mapred.JobClient:     SPLIT_RAW_BYTES=784
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce input records=201001

Я сделал Googleна проблему, и люди в Apache, кажется, предполагают, что это может быть что-то из проблемы с сетью (или что-то делать с файлами / etc / hosts) или может быть поврежденный диск на ведомых узлах.

Просточтобы добавить: я вижу 2 «живых узла» на панели администратора namenode (localhost: 50070 / dfshealth) и в разделе «Карта / уменьшение администратора» я также вижу 2 узла.

Любые подсказки о том, как мне избежать этихошибки?Заранее спасибо.

Редактировать: 1:

Журнал задачника включен: http://pastebin.com/XMkNBJTh Журнал датодода включен: http://pastebin.com/ttjR7AYZ

Большое спасибо.

Ответы [ 3 ]

2 голосов
/ 28 марта 2013

Изменить файл узла узла данных / etc / hosts.

Каждая строка разделена на три части. Первая часть - это IP-адрес сети, вторая - имя хоста или имя домена, третья часть - псевдоним хоста. Ниже приведены подробные шаги:

  1. Сначала проверьте имя хоста:

    cat / proc / sys / kernel / hostname

    Вы увидите атрибут HOSTNAME. Измените значение IP на OK и затем выйдите.

  2. Используйте команду:

    hostname ***. ***. ***. ***

    Звездочка заменена на соответствующий IP.

  3. Измените конфигурацию хостов следующим образом:

    127.0.0.1 localhost.localdomain localhost :: 1 localhost6.localdomain6 localhost6 10.200.187.77 10.200.187.77 hadoop-datanode

Если IP-адрес настроен и успешно изменен, или если отображается имя хоста, в котором возникла проблема, продолжайте изменять файл хостов.

1 голос
/ 23 мая 2013

Следующее решение определенно будет работать

1.Удалить или комментировать строки с Ip 127.0.0.1 и 127.0.1.1

2.использовать имя хоста, а не псевдоним для ссылки на узел в файле хоста и MasterФайл / slave присутствует в каталоге hadoop

  -->in Host file 172.21.3.67 master-ubuntu

  -->in master/slave file master-ubuntu

3.см. для NameSpaceId для namenode = NameSpaceId для Datanode

0 голосов
/ 14 марта 2012

У меня была та же проблема: «Слишком много ошибок извлечения» и очень низкая производительность Hadoop (простой пример wordcount занял более 20 минут для запуска на кластере из 2 узлов мощных серверов).Я также получил ошибки «WARN mapred.JobClient: Ошибка чтения задания outputConnection отказано».

Проблема была исправлена, когда я следовал инструкции Томаса Юнгблута: я удалил свой главный узел из файла конфигурации ведомых устройств.После этого ошибки исчезли, и пример использования WordCount занял всего 1 минуту.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...