Сохраните фрейм данных Pandas в CSV-файл.(Пропустите этот шаг, если вы сначала загрузили его из CSV-файла и, конечно же, не сделали никаких данных на нем.)
Поместите этот CSV-файл куда-нибудь вH2O сервер может видеть это.(Если вы используете клиент и сервер на одном компьютере, это уже так.)
Используйте h2o.import_file()
(вместо h2o.upload_file()
или h2o.H2OFrame()
)
h2o.import_file()
- это самый быстрый способ получить данные в H2O, но файл должен быть виден на сервере.При работе с удаленным кластером это может означать его загрузку в файловую систему этих серверов или размещение на веб-сервере, в кластере HDFS, на AWS S3 и т. Д. И т. Д.
(причина h2o.upload_file()
медленнее в том, что он выполняет HTTP POST данных от клиента к серверу, а h2o.H2OFrame()
медленнее, потому что он экспортирует ваши данные pandas в временный CSV-файл, затем использует h2o.upload_file()
, а затем удаляет временный файлпосле этого.)