Стандартизирует / нормализует ли DAI во время обучения, какие методы он пробует, и генетический алгоритм испытывает их все? - PullRequest
1 голос
/ 02 мая 2019

Часто я не уверен, в какой степени предварительно обрабатывать мои данные при использовании DAI. Часто вы хотите уменьшить размерность, избавиться от дублирующих функций, стандартизировать / нормализовать и т. Д. Для модели производственного уровня. Есть ли правило, по которому я должен прекратить личную предварительную обработку в пользу DAI (т.е., только избавиться от алгоритма двоичной классификации от Nan и DAI сделает все остальное). Будет ли он явно объяснять, какой метод нормализации он использовал, например, MinMaxScaler () из Sklearn?

1 Ответ

1 голос
/ 02 мая 2019

Как правило, предварительная обработка не требуется, и методы, используемые DAI для внутренней предварительной обработки, зависят от алгоритмов, лежащих в основе моделей.

Однако, есть определенные случаи использования, которые могут потребовать предварительной обработки, и h2o может помочь вам в этом, если вы обратитесь к ним. Например, если вы хотите что-то предсказать на уровне клиента, но ваши данные - это транзакции, то вам нужно выполнить предварительную обработку - скажем, у вас есть транзакции в продуктовом магазине, и вы хотите предсказать, сколько магазин сделает завтра. Затем вам нужно агрегировать до уровня дневного магазина, так как это уровень, на котором вы хотите делать прогнозы. По сути, любой случай, когда данные более детализированы, чем уровень, на котором вы хотите получить прогнозы, требует предварительной обработки.

Для пропущенных значений лучше всего разрешить ИИ без водителя обрабатывать их, если вы не знаете, почему пропущены значения и, следовательно, можете использовать правила домена для их заполнения. Например, если у вас транзакция = NA, но вы знаете, что это означает, что деньги не были потрачены вы бы хотели изменить NA на 0.

Я думаю, что следующие документы могут быть полезны: http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions. В частности, разделы «Может ли ИИ без водителя обрабатывать данные с пропущенными значениями / нулями?» и «стандартизирует ли Driverless AI данные?».

Вы также можете найти много информации о том, что ваш эксперимент делает в отчете об эксперименте: http://docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html. В настоящее время мы не сообщаем о методах стандартизации, потому что это происходит по-разному для каждой модели в ансамбле, который потенциально довольно сложный.

...