Мой вопрос таков: должен ли я сам заботиться о многопроцессорности в моем маппере (читать задачи из stdin, затем распределять их по рабочим процессам, объединять результаты в главном процессе и выводить в stdout) или Hadoop позаботится об этом автоматически?
После того, как кластер Hadoop был установлен, минимум, необходимый для отправки задания, составляет
- Формат ввода и местоположение
- Формат вывода и местоположение
- Функции Map и Reduce для обработки данных
- Расположение NameNode и JobTracker
Hadoop позаботится о распределении работы по различным узлам, отслеживая их, читаяданные из i / p и запись данных в o / p.Если пользователь должен выполнить все эти задачи, то нет смысла использовать Hadoop.
Предложить, чтобы просмотреть документацию Hadoop и пару учебных пособий.