Реализация дерева решений с использованием h2o - PullRequest
0 голосов
/ 07 июня 2018

Я пытаюсь обучить модель дерева решений, используя H2O.Мне известно, что в h2o нет специальной библиотеки для деревьев решений.Но у h2o есть реализация случайного леса H2ORandomForestEstimator .Можем ли мы реализовать дерево решений в H2O, настроив определенные входные аргументы случайных лесов?Потому что мы можем сделать это в модуле scikit (популярная библиотека python для машинного обучения)

Ссылка: Почему Случайный Лес с одним деревом намного лучше, чем классификатор Дерева решений?

В scikit код выглядит примерно так:

RandomForestClassifier(n_estimators=1, max_features=None, bootstrap=False)

У нас есть эквивалент этого кода в h2o?

Ответы [ 2 ]

0 голосов
/ 03 декабря 2018

Добавить к ответу Лорен: на основе PUBDEV-4324 - Представить дерево решений в качестве отдельного алгоритма в H2O И DRF, и GBM могут выполнять работу с GBM, что немного проще:

titanic_1tree = h2o.gbm(x = predictors, y = response, 
                        training_frame = titanicHex,
                        ntrees = 1, min_rows = 1, sample_rate = 1,            
                        col_sample_rate = 1,
                        max_depth = 5,
                        seed = 1)

, который создает дерево решений максимум 5 расщеплений (max_depth = 5) для набора данных титанического типа (доступно здесь: https://s3.amazonaws.com/h2o-public-test-data/smalldata/gbm_test/titanic.csv)

Начиная с версии 3.22.0.1 (Xia) можно извлекать древовидные структурыиз моделей H2O:

titanicH2oTree = h2o.getModelTree(model = titanic_1tree, tree_number = 1)
0 голосов
/ 07 июня 2018

вы можете использовать случайный лес H2O (H2ORandomForestEstimator), установить ntrees=1 так, чтобы он строил только одно дерево, установите mtries количество объектов (т. Е. Столбцов), которые есть в вашем наборе данных, и sample_rate =1.Установка mtries для числа функций в вашем наборе данных означает, что алгоритм будет случайным образом выбирать все ваши функции на каждом уровне в дереве решений.

здесь больше информации о mtries: http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/mtries.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...