После долгих попыток использовать газированную воду с H2O я подхожу к этапу, на котором я выполняю поезд, пытаясь тренировать модель DRF.
Работа выполняется на пряже с использованием Spark 1.6 и газированной воды 2.1.
Работа на самом деле выполняется и успешно, но через долгое время. Когда я пытался проверить журналы H2O на каждом исполнителе, я не нашел его, даже когда установил spark.ext.h2o.node.log.dir
. Более того, я даже не могу распознать какую-либо активность у этих исполнителей, когда начинается обучение. Я нахожу журналы в spark.ext.h2o.client.log.dir
, который (насколько я понимаю) является своего рода драйвером для H2O. В этом журнале я вижу процесс обучения, например: Пример процесса обучения DRF
Журналы на самом деле подтверждают мои опасения, что узлы executors \ H2O не участвуют в тренировочном процессе, а весь процесс выполняется на одной машине. Вы можете видеть, что дерево добавляется каждые несколько минут, а не массово, как вы ожидаете от создания распределенного дерева.
H2O и газированная вода требуют много настроек для работы, так что, возможно, я что-то пропустил. Так что я был бы рад получить руководство:
- Есть ли какой-то шаг конфигурации, который я пропустил, который мешает мне работать в распределенном режиме.
2.Как добраться до логов узла H2O? Почему они отсутствуют?
Дополнительные данные:
Вот флаги, с которыми я работаю:
'spark.executor.memory': '8g',
'spark.locality.wait': '3000',
'spark.scheduler.minRegisteredResourcesRatio': '1',
'spark.scheduler.maxRegisteredResourcesWaitingTime': '1800000',
'spark.task.maxFailures': '1',
'spark.executor.heartbeatInterval' : '10s',
'spark.executor.cores': '4',
'spark.yarn.executor.memoryOverhead': '4000',
'spark.dynamicAllocation.enabled': 'false',
'spark.yarn.driver.memoryOverhead': '4000',
'spark.yarn.am.memoryOverhead': '4000',
'spark.yarn.max.executor.failures': '1',
'spark.ext.h2o.disable.ga': 'false',
'spark.ext.h2o.client.web.port': '10050',
'spark.ext.h2o.node.log.level': 'INFO',
'spark.ext.h2o.node.log.dir': '/data0/yarn/nm/usercache/h20.node/h2o_logs',
'spark.ext.h2o.client.log.level': 'INFO',
'spark.driver.extraJavaOptions' : '-XX:MaxPermSize=384m',
'spark.executor.extraJavaOptions' : '-XX:MaxPermSize=384m',
'spark.yarn.am.extraJavaOptions' : '-XX:MaxPermSize=384m
UPDATE:
Мне удалось найти журналы, наконец. Но хороших новостей нет, все они выглядят одинаково, и все же вы не можете обнаружить какую-либо деятельность, которая подразумевает, что исполнители, участвующие в процессе обучения, только сообщения инициализации.