Hadoop WordCount Пример проблемы, мне нужно сделать некоторые настройки производительности? - PullRequest
2 голосов
/ 05 августа 2011

Я новичок в Hadoop .

Недавно я просто сделал пример из WordCount.

Но когда я запускаю эту программу на своем узле с двумя входными файлами, всего 9 слов, это занимает почти 33 секунды !!! такой сумасшедший, и это меня так смущает !!!

Может кто-нибудь сказать мне, это нормально или что-то ???

Как я могу исправить эту проблему? Помните, я просто создаю 2 входных файла с 9 словами.

Отправить адрес хоста: 127.0.0.1
Job-ACL: всем пользователям разрешено
Настройка задания: успешно
Статус: Успешно
Начало работы: пт, авг 05 14:27:22 CST 2011
Окончание: пт, авг 05 14:27:53 CST 2011
Закончено: 30сек

Ответы [ 2 ]

3 голосов
/ 05 августа 2011

Hadoop неэффективен для очень маленьких задач, так как требует больше времени для запуска JVM, инициализации процесса и других. Тем не менее, его можно оптимизировать до некоторой степени, разрешив повторное использование JVM.

http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse

Кроме того, в Apache Hadoop идет работа над этим.

https://issues.apache.org/jira/browse/MAPREDUCE-1220

Не уверен, в какую версию это будет включено или в каком состоянии находится JIRA.

3 голосов
/ 05 августа 2011

Это не необычно.Hadoop вступает в силу с большими наборами данных.То, что вы видите, это, вероятно, начальное время запуска Hadoop.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...