Question

Я новичок в Hadoop .

Недавно я просто сделал пример из WordCount.

Но когда я запускаю эту программу на своем узле с двумя входными файлами, всего 9 слов, это занимает почти 33 секунды !!! такой сумасшедший, и это меня так смущает !!!

Может кто-нибудь сказать мне, это нормально или что-то ???

Как я могу исправить эту проблему? Помните, я просто создаю 2 входных файла с 9 словами.

Отправить адрес хоста: 127.0.0.1
Job-ACL: всем пользователям разрешено
Настройка задания: успешно
Статус: Успешно
Начало работы: пт, авг 05 14:27:22 CST 2011
Окончание: пт, авг 05 14:27:53 CST 2011
Закончено: 30сек

Praveen Sripati · Answer 1 · 05 августа 2011

Hadoop неэффективен для очень маленьких задач, так как требует больше времени для запуска JVM, инициализации процесса и других. Тем не менее, его можно оптимизировать до некоторой степени, разрешив повторное использование JVM.

http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse

Кроме того, в Apache Hadoop идет работа над этим.

https://issues.apache.org/jira/browse/MAPREDUCE-1220

Не уверен, в какую версию это будет включено или в каком состоянии находится JIRA.

Otto Allmendinger · Answer 2 · 05 августа 2011

Это не необычно.Hadoop вступает в силу с большими наборами данных.То, что вы видите, это, вероятно, начальное время запуска Hadoop.

Hadoop WordCount Пример проблемы, мне нужно сделать некоторые настройки производительности?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop WordCount Пример проблемы, мне нужно сделать некоторые настройки производительности?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов