Использование столбца для сгибов перекрестной проверки - PullRequest
0 голосов
/ 28 апреля 2020

У меня есть набор данных с более чем 100k строк и около 1k столбцов, включая целевой столбец для проблемы прогнозирования binary classification. Я использую H2O GBM (последняя версия 3.30xx) в python с 5-кратной перекрестной проверкой и 80-20 разделением теста на поезд. Я заметил, что H2O автоматически расслаивается, что хорошо. Проблема в том, что у меня есть весь этот набор данных из одного продукта с некоторыми субпродуктами в нем в виде отдельной колонки или группы. Каждый из этих субпродуктов имеет приличный размер от 5 до 10 тыс. Строк, и поэтому хорошо проверить отдельные модели на каждой из них, как мне показалось. Я ищу, могу ли я указать эти группы субпродуктов для перекрестной проверки в обучении модели H2O. В настоящее время я перебираю эти субпродукты, пока делю тест-поезд, так как мне не ясно, как это сделать иначе, исходя из документа, который я прочитал до сих пор. Есть ли какая-либо опция, которую я могу использовать в H2O, чтобы иметь этот столбец субпродукта непосредственно для перекрестной проверки? Таким образом, я должен меньше контролировать все результаты модели в моих скриптах.
Надеюсь, вопрос ясен. Если нет, дайте мне знать. Спасибо.

1 Ответ

0 голосов
/ 29 апреля 2020

fold_column опция работает, в документах есть несколько кратких примеров: http://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2o .grid.H2OGridSearch

...