Пример выполнения сортировки Hadoop на кластере с одним узлом - PullRequest
1 голос
/ 05 апреля 2011

Я пытаюсь запустить пример сортировки на одноузловом кластере Hadoop.Прежде всего, я запускаю демонов:

hadoop@ubuntu:/home/user/hadoop$ bin/start-all.sh

Затем я запускаю пример произвольной записи для генерации последовательных файлов в качестве входных файлов.

hadoop@ubuntu:/home/user/hadoop$ bin/hadoop jar hadoop-*-examples.jar randomwriter rand

hadoop @ ubuntu: / home / user / hadoop $ bin / hadoop jar hadoop - * - examples.jar randomwriter rand

Запуск 0 карт.

Job started: Thu Mar 31 18:21:51 EEST 2011 
11/03/31 18:21:52 INFO mapred.JobClient: Running job: job_201103311816_0001 
11/03/31 18:21:53 INFO mapred.JobClient:  map 0% reduce 0% 
11/03/31 18:22:01 INFO mapred.JobClient: Job complete: job_201103311816_0001 
11/03/31 18:22:01 INFO mapred.JobClient: Counters: 0 
Job ended: Thu Mar 31 18:22:01 EEST 2011 

Задание заняло 9 секунд.

hadoop@ubuntu:/home/user/hadoop$ bin/hadoop jar hadoop-*-examples.jar sort rand rand-sort

Запуск на 1 узле для сортировки из hdfs://localhost:54310/user/hadoop/rand в

hdfs://localhost:54310/user/hadoop/rand-sortс 1 снижает.

Job started: Thu Mar 31 18:25:19 EEST 2011 
11/03/31 18:25:20 INFO mapred.FileInputFormat: Total input paths to process : 0 
11/03/31 18:25:20 INFO mapred.JobClient: Running job: job_201103311816_0002 
11/03/31 18:25:21 INFO mapred.JobClient:  map 0% reduce 0% 
11/03/31 18:25:32 INFO mapred.JobClient:  map 0% reduce 100% 
11/03/31 18:25:34 INFO mapred.JobClient: Job complete: job_201103311816_0002 
11/03/31 18:25:34 INFO mapred.JobClient: Counters: 9 
11/03/31 18:25:34 INFO mapred.JobClient:   Job Counters 
11/03/31 18:25:34 INFO mapred.JobClient:     Launched reduce tasks=1 
11/03/31 18:25:34 INFO mapred.JobClient:   FileSystemCounters 
11/03/31 18:25:34 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=96 
11/03/31 18:25:34 INFO mapred.JobClient:   Map-Reduce Framework 
11/03/31 18:25:34 INFO mapred.JobClient:     Reduce input groups=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Combine output records=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Reduce shuffle bytes=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Reduce output records=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Spilled Records=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Combine input records=0 
11/03/31 18:25:34 INFO mapred.JobClient:     Reduce input records=0 
Job ended: Thu Mar 31 18:25:34 EEST 2011 

Работа заняла 14 секунд.

hadoop@ubuntu:/home/user/hadoop$ bin/hadoop dfs -cat rand-sort/part-00000

SEQ # "org.apache.hadoop.io.BytesWritable" org.apache.hadoop.io.BytesWritablej "��mY� & �٩� #

Я новичок в Hadoop. Все ли я делаю правильно или я делаю что-то не так? И мой вопрос: как я могу увидеть, что сгенерированные данные из randomwritewr и результаты из примера сортировки верны?Откуда я могу их увидеть?

Ответы [ 2 ]

1 голос
/ 16 июня 2011

Проблема в том, что ваш трекер задач не запускается к тому времени, когда вы пытаетесь запустить задание, он не запускается мгновенно. Вы можете запустить bin / hadoop job -list-active-trackers, чтобы увидеть, запущен ли трекер задач, может потребоваться некоторое время, чтобы закончить работу. Нет TaskTracker = нет узлов для сопоставления писателя.

0 голосов
/ 05 апреля 2011
11/03/31 18:25:20 INFO mapred.FileInputFormat: Total input paths to process : 0 

Нет ввода, вы должны указать путь, по которому задание должно ожидать его входные файлы.Кажется, что у RandomWriter тоже не было Input, вы должны предоставить Input для каждой работы, иначе ничего не запустится.

RandomWriter @ Hadoop Wiki

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...