Позволяет ли газированная вода H2O проводить онлайн-тренинги с Кафкой в ​​качестве потокового источника? - PullRequest
0 голосов
/ 27 марта 2019

Я сейчас экспериментирую с возможностями Sparkling-Water.Существует несколько возможных вариантов использования, включая изменение данных в H2O / Spark, построение моделей и обучение в автономном режиме, а также прогнозирование потоковой передачи в Интернете.Мне было интересно, можно ли использовать Sparkling-Water для онлайн-обучения вместе с Kafka Streaming Source?

1 Ответ

0 голосов
/ 27 марта 2019

В частности, модель глубокого обучения может постоянно тренироваться, если вы продолжаете представлять новые данные.Таким образом, вы можете проводить онлайн-обучение с этим.

Модели, такие как DRM и GBM, могут «добавлять другое дерево» из новых данных с помощью контрольной точки, хотя на самом деле вы не хотите получать бесконечные деревья.

Вы можете хранить окно данных и периодически обучать новую законченную модель.(Замена нового экземпляра модели во время выполнения довольно проста. Поэтому вы можете просто продолжать обучение в фоновом режиме и обновлять модель, которая прогнозирует потоковую передачу данных периодически - как каждый час или каждые несколько минут, или как угодно).

Или сделайте свое собственное объединение, усредняя предсказание многих моделей - периодически выбрасывая старые модели и добавляя новые в стратегию конвейерной ленты.Похоже на скользящее среднее.

...