Как мы можем получать данные из MongoDB в кластер H2o? - PullRequest
0 голосов
/ 08 января 2020

У меня есть около 2 ГБ данных в моей локальной базе данных MongoDB с одной коллекцией в базе данных. Я хочу перенести все эти данные из базы данных MongoDB в автономный кластер H2o для построения модели машинного обучения. Я использую python для анализа данных в H2o. Не могли бы вы посоветовать, как мне поступить?

Ответы [ 2 ]

0 голосов
/ 18 января 2020

Одним из возможных решений является загрузка данных в искровой кластер с использованием разъема spark-mongodb и преобразовывающего DataFrame в H2OFrame. Для получения подробной информации, пожалуйста, проверьте http://docs.h2o.ai/sparkling-water/2.2/latest-stable/doc/tutorials/spark_h2o_conversions.html#converting -a-dataframe-into-an-h2oframe

После этого используйте Sparkling Water для анализа данных.

0 голосов
/ 08 января 2020

Я никогда не работал с H2O, но, как известно, он не интегрирован с mon go:

Мне кажется, вы должны написать скрипт, который будет:

  1. Подключиться к понедельнику go
  2. Запустить запрос и получить курсор
  3. Перебрать результаты, преобразовать объект в форму, понятную H2O, и
  4. Поместить в H2O (лучше в партиях, если H2O поддерживает пакетные вставки)
...