Hadoop для потоковой передачи нескольких файлов за одно задание на карту - PullRequest
0 голосов
/ 04 марта 2011

У меня есть настройка потоковой передачи Hadoop, которая работает, однако при инициализации картографических устройств возникают некоторые накладные расходы, которые выполняются один раз для каждого файла, и, поскольку я обрабатываю много файлов, я замечаю, что трачу много времени на инициализацию.

Есть ли способ, без написания Java, указать, что я хочу повторно использовать один и тот же экземпляр сопоставления для нескольких файлов, чтобы амортизировать стоимость инициализации?

1 Ответ

0 голосов
/ 05 марта 2011

В $HADOOP_HOME/conf/mapred-site.xml добавьте / отредактируйте следующее свойство

<property>
    <name>mapred.job.reuse.jvm.num.tasks</name>
    <value>#</value>
</property>

# может быть установлено в число, чтобы указать, сколько раз JVM будет использоваться повторно (по умолчанию 1), илиустановите -1, чтобы не ограничивать количество повторного использования.

Также можно указать его для каждого задания, задав для конфигурации задания mapred.job.reuse.jvm.num.tasks желаемое значение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...