Сохранение фрейма данных H2o - PullRequest
0 голосов
/ 29 января 2019

Я работаю с кадром данных обучения 10 ГБ.Я использую библиотеку H2o для более быстрого вычисления.Каждый раз, когда я загружаю набор данных, я должен преобразовывать фрейм данных в объект H2o, который занимает так много времени.Есть ли способ сохранить преобразованный объект H2o?(чтобы я мог пропустить шаг as.H2o (trainingset) каждый раз, когда я создаю маршруты для построения моделей)

Ответы [ 2 ]

0 голосов
/ 31 января 2019

as.h2o(d) работает следующим образом (даже если клиент и сервер - одна и та же машина):

  1. В R экспортируйте d в файл csv во временной папке
  2. Вызов h2o.uploadFile(), который выполняет HTTP POST для сервера, затем однопоточный импорт.
  3. Возвращает дескриптор из этого импорта
  4. Удаляет созданный временный CSV-файл.

Вместо этого, где-то заранее подготовьте свои данные (*), затем используйте h2o.importFile() (См. http://docs.h2o.ai/h2o/latest-stable/h2o-r/docs/reference/h2o.importFile.html).). Это избавляет от необходимости возиться с локальным файлом, а также может выполнять параллельное чтение и импорт..

*: Для самых быстрых результатов «где-то» должно быть как можно ближе к серверу. Чтобы оно вообще работало, «где-то» должно быть где-то сервер Можно увидеть. Если клиент и сервер - это одна и та же машина, то это происходит автоматически. С другой стороны, если ваш сервер представляет собой кластер машин в центре обработки данных AWS на другом континенте, то размещение данных в S3 работает хорошо.также поместите его на HDFS или на веб-сервер.

См. http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/importing-data.html для некоторых примеров как на R, так и на Python.

0 голосов
/ 29 января 2019

После первого преобразования с помощью as.h2o(trainingset) вы можете экспортировать / сохранить файл на диск, а затем импортировать его снова.

my_h2o_training_file <- as.h2o(trainingset)
path <- "whatever/my/path/is"
h2o.exportFile(my_h2o_training_file , path = path)

А когда вы хотите загрузить его, используйте h2o.importFile или h2o.importFolder.Правильное использование см. В справке по функциям.

Или сохраните файл в формате csv / txt, прежде чем преобразовать его с помощью as.h2o и загрузите его непосредственно в h2o с помощью одной из вышеуказанных функций.

...