Выполняет ли h2o в кластере с одним узлом параллельную обработку или только в многоузловом кластере включается параллельная обработка? - PullRequest
0 голосов
/ 01 ноября 2018

Мы используем h2o как кластер с одним узлом внутри AWS:

R is connected to the H2O cluster: 
    H2O cluster uptime:         5 seconds 217 milliseconds 
    H2O cluster timezone:       Etc/UTC 
    H2O data parsing timezone:  UTC 
    H2O cluster version:        3.17.0.4153 
    H2O cluster version age:    10 months and 4 days !!! 
    H2O cluster name:           h2o-8ba55ebb-7d49-41bd-b4e2-d7be45b5f53e 
    H2O cluster total nodes:    1 
    H2O cluster total memory:   22.20 GB 
    H2O cluster total cores:    8 
    H2O cluster allowed cores:  8 
    H2O cluster healthy:        TRUE 
    H2O Connection ip:          localhost 
    H2O Connection port:        54321 
    H2O Connection proxy:       NA 
    H2O Internal Security:      FALSE 
    H2O API Extensions:         XGBoost, Algos, AutoML, Core V3, Core V4 
    R Version:                  R version 3.4.3 (2017-11-30) 

И запуск h2o из java с nthreads -1:

java -ea -Xmx25g -jar /path/to/h2o.jar -name unique-cloud-name 
     -ip localhost -ice_root /tmp/h2o-tmp -nthreads -1

Нам интересно, если в кластере с одним узлом h2o выполняет параллельную обработку / использует все доступные и разрешенные ядра. Когда мы выполняем top -H в командной строке, мы видим по совпадению 8 активных процессов Java и задаемся вопросом, не являются ли они из h2o и помогают ли мы генерировать нашу модель.

enter image description here

1 Ответ

0 голосов
/ 01 ноября 2018

Да, H2O будет использовать все ядра на одном узле для обучения одной модели.

nthreads позволяет вам явно установить размер пула потоков, который контролирует степень параллелизма для процесса.

...