У меня есть набор данных с более чем 100k строк и около 1k столбцов, включая целевой столбец для проблемы прогнозирования binary classification
. Я использую H2O
GBM (последняя версия 3.30xx) в python
с 5-кратной перекрестной проверкой и 80-20 разделением теста на поезд. Я заметил, что H2O автоматически расслаивается, что хорошо. Проблема в том, что у меня есть весь этот набор данных из одного продукта с некоторыми субпродуктами в нем в виде отдельной колонки или группы. Каждый из этих субпродуктов имеет приличный размер от 5 до 10 тыс. Строк, и поэтому хорошо проверить отдельные модели на каждой из них, как мне показалось. Я ищу, могу ли я указать эти группы субпродуктов для перекрестной проверки в обучении модели H2O. В настоящее время я перебираю эти субпродукты, пока делю тест-поезд, так как мне не ясно, как это сделать иначе, исходя из документа, который я прочитал до сих пор. Есть ли какая-либо опция, которую я могу использовать в H2O, чтобы иметь этот столбец субпродукта непосредственно для перекрестной проверки? Таким образом, я должен меньше контролировать все результаты модели в моих скриптах.
Надеюсь, вопрос ясен. Если нет, дайте мне знать. Спасибо.