Газированная вода H2O не может распределить работу по исполнителям - PullRequest
0 голосов
/ 07 ноября 2018

После долгих попыток использовать газированную воду с H2O я подхожу к этапу, на котором я выполняю поезд, пытаясь тренировать модель DRF. Работа выполняется на пряже с использованием Spark 1.6 и газированной воды 2.1.

Работа на самом деле выполняется и успешно, но через долгое время. Когда я пытался проверить журналы H2O на каждом исполнителе, я не нашел его, даже когда установил spark.ext.h2o.node.log.dir. Более того, я даже не могу распознать какую-либо активность у этих исполнителей, когда начинается обучение. Я нахожу журналы в spark.ext.h2o.client.log.dir, который (насколько я понимаю) является своего рода драйвером для H2O. В этом журнале я вижу процесс обучения, например: Пример процесса обучения DRF

Журналы на самом деле подтверждают мои опасения, что узлы executors \ H2O не участвуют в тренировочном процессе, а весь процесс выполняется на одной машине. Вы можете видеть, что дерево добавляется каждые несколько минут, а не массово, как вы ожидаете от создания распределенного дерева.

H2O и газированная вода требуют много настроек для работы, так что, возможно, я что-то пропустил. Так что я был бы рад получить руководство:

  1. Есть ли какой-то шаг конфигурации, который я пропустил, который мешает мне работать в распределенном режиме.

2.Как добраться до логов узла H2O? Почему они отсутствуют?

Дополнительные данные: Вот флаги, с которыми я работаю:

'spark.executor.memory': '8g',
                 'spark.locality.wait': '3000',
                 'spark.scheduler.minRegisteredResourcesRatio': '1',
                 'spark.scheduler.maxRegisteredResourcesWaitingTime': '1800000',
                 'spark.task.maxFailures': '1',
                 'spark.executor.heartbeatInterval' : '10s',
                 'spark.executor.cores': '4',
                 'spark.yarn.executor.memoryOverhead': '4000',
                 'spark.dynamicAllocation.enabled': 'false',
                 'spark.yarn.driver.memoryOverhead': '4000',
                 'spark.yarn.am.memoryOverhead': '4000',
                 'spark.yarn.max.executor.failures': '1',
                 'spark.ext.h2o.disable.ga': 'false',
                 'spark.ext.h2o.client.web.port': '10050',
                 'spark.ext.h2o.node.log.level': 'INFO',
                 'spark.ext.h2o.node.log.dir': '/data0/yarn/nm/usercache/h20.node/h2o_logs',
                 'spark.ext.h2o.client.log.level': 'INFO',
                 'spark.driver.extraJavaOptions' : '-XX:MaxPermSize=384m',
                 'spark.executor.extraJavaOptions' : '-XX:MaxPermSize=384m',
                 'spark.yarn.am.extraJavaOptions' : '-XX:MaxPermSize=384m

UPDATE: Мне удалось найти журналы, наконец. Но хороших новостей нет, все они выглядят одинаково, и все же вы не можете обнаружить какую-либо деятельность, которая подразумевает, что исполнители, участвующие в процессе обучения, только сообщения инициализации.

...