РЕДАКТИРОВАТЬ эта информация теперь подробно описана в документации здесь
Ниже приведено описание того, что происходит, когда вы пытаетесь предсказать на категориальном уровне, который не виден во времяповышение квалификации.В зависимости от версии DAI, которую вы используете, у вас может не быть доступа к определенному алгоритму, но, учитывая алгоритм, детали должны применяться к вашей версии DAI.
XGBoost, LightGBM,RuleFit, TensorFlow, GLM
Конвейер разработки функций безаварийного ИИ вычислит числовое значение для каждого категориального уровня, присутствующего в данных, независимо от того, было ли это ранее замеченным значением или нет.Для частотного кодирования невидимые уровни будут заменены на 0. Для целевого кодирования будет использоваться глобальное среднее целевого значения.И т.д.
и
FTRL
В модели FTRL не проводится различие между категориальными и числовыми значениями.Независимо от того, видел ли FTRL конкретное значение во время обучения, он будет хешировать все данные, строка за строкой, в числовое значение, а затем делать прогнозы.Поскольку вы можете думать о FTRL как об изучении всех возможных значений в наборе данных наизусть, нет гарантии, что он сделает точные прогнозы для невидимых данных.Поэтому важно обеспечить, чтобы обучающий набор данных имел разумное «совпадение», с точки зрения уникальных значений, с теми, которые используются для прогнозирования.
Поскольку DAI использует другие алгоритмы, чемH2O-3 (кроме XGBoost), лучше всего рассматривать их как отдельные продукты с потенциально различной обработкой невидимых уровней или пропущенных значений - хотя в некоторых случаях есть сходства.
Как уже упоминалось в комментарии, документация DRF для H2O-3 должна быть обновлена.
Надеюсь, это объяснение поможет!