Как DAI обрабатывает новые (невидимые в обучении) категориальные значения в производственной среде? - PullRequest
2 голосов
/ 06 мая 2019

Я хотел бы получить подтверждение того, что DAI следует аналогичной структуре для работы с категориальными переменными, с которыми он не сталкивался в процессе обучения, как в этом ответе h2o DRF обработка невидимых категориальных значений . Я не смог найти его явно в документации по ИО без водителя.

Просьба также указать, устарели ли части этой ссылки (как указано в ответе) и как она обрабатывается, если это происходит иначе. Обратите внимание на версию H2O DAI. Спасибо!

1 Ответ

2 голосов
/ 22 мая 2019

РЕДАКТИРОВАТЬ эта информация теперь подробно описана в документации здесь

Ниже приведено описание того, что происходит, когда вы пытаетесь предсказать на категориальном уровне, который не виден во времяповышение квалификации.В зависимости от версии DAI, которую вы используете, у вас может не быть доступа к определенному алгоритму, но, учитывая алгоритм, детали должны применяться к вашей версии DAI.

  • XGBoost, LightGBM,RuleFit, TensorFlow, GLM

    Конвейер разработки функций безаварийного ИИ вычислит числовое значение для каждого категориального уровня, присутствующего в данных, независимо от того, было ли это ранее замеченным значением или нет.Для частотного кодирования невидимые уровни будут заменены на 0. Для целевого кодирования будет использоваться глобальное среднее целевого значения.И т.д.

и

  • FTRL

    В модели FTRL не проводится различие между категориальными и числовыми значениями.Независимо от того, видел ли FTRL конкретное значение во время обучения, он будет хешировать все данные, строка за строкой, в числовое значение, а затем делать прогнозы.Поскольку вы можете думать о FTRL как об изучении всех возможных значений в наборе данных наизусть, нет гарантии, что он сделает точные прогнозы для невидимых данных.Поэтому важно обеспечить, чтобы обучающий набор данных имел разумное «совпадение», с точки зрения уникальных значений, с теми, которые используются для прогнозирования.

Поскольку DAI использует другие алгоритмы, чемH2O-3 (кроме XGBoost), лучше всего рассматривать их как отдельные продукты с потенциально различной обработкой невидимых уровней или пропущенных значений - хотя в некоторых случаях есть сходства.

Как уже упоминалось в комментарии, документация DRF для H2O-3 должна быть обновлена.

Надеюсь, это объяснение поможет!

...