Невозможно импортировать файлы и анализировать файлы из корзины s3 в версию 3.22.0.2 потока h2o. - PullRequest
0 голосов
/ 04 декабря 2018

Я передавал следующий формат пути к файлу для импорта файлов данных из блоков s3 в поток H2O (версия 3.18.0.10):

importFiles ["s3a://ACCESS KEY:SECRET KEY@parvin-us-west1-data/Prod/154351418084_train/"]

После обновления до версии 3.22.0.2 , я получаю следующую ошибку с тем же путем к файлу.

Error calling GET /3/ImportFiles?path=s3a%3A%2F%2ACCESS KEY%3SECRET KEY%40parvin-us-west1-data%2FProd%2F154351418084_train%2F
--------------------
HTTP connection failure: status=error, code=500, error=Server Error
--------------------

Кажется, что теперь он ожидает другой формат пути файла s3, есть ли документация о том, как передать пути файла s3 с учетными данными в последнюю версию h2o?

Обновление:

После изменения конфигурации я могу импортировать файлы.После запуска ячейки importfile появляется следующее.

1/1 импортированных файлов.

Файлы s3a: //parvin-us-west1-data/Prod/154351418084_train/data.csv

Однако, когда я нажимаю "parse"эти файлы ", он показывает новую ячейку со следующим содержимым, но не делает никакого прогресса:

setupParse source_frames: [" s3a: //parvin-us-west1-data/Prod/154351418084_train/data.csv "]

Также внизу страницы написано «Requesting / 3 / ParseSetup», но ничего не происходит.Даже это не дает ошибку времени ожидания через 20 минут.

Последняя строка журнала терминала: 1283 # 71051-12 INFO: POST / 3 / ParseSetup, parms: {source_frames = ["s3a: // parvin-us-west1-data / Prod / 154351418084_train / data.csv "]}

Примечание о версии (3.18.0.10) без этой проблемы:

после нажатия «разбирать эти файлы»: в ячейку выводится следующая информация:

setupParse source_frames: ["s3a: // КЛЮЧ ДОСТУПА: СЕКРЕТНЫЙ КЛЮЧ @ parvin-us-west1-data /Prod / 154351418084_train / data.csv "]

Разница в том, что он также включает в себя учетную часть URL.

Обновление:

У меня также естьпопытался запустить h2o в автономном режиме (используя core-site.xml для передачи учетных данных).Даже в этом случае он не может анализировать файлы после их импорта.

1 Ответ

0 голосов
/ 05 декабря 2018

Формат файла должен быть таким же (см. Вариант 3 внизу поста), я сделал быстрый тест, и он работал для меня, используя importFiles [ "s3a://<AWS_ACCESS_KEY>:<AWS_SECRET_KEY>@bucket/path/to/file.csv" ].

Я бы проверил, в порядке ли ваше соединение, состояние кластера и можно ли получить доступ к файлу любым другим способом.

Вот то, что есть у текущих документов для H2O, работающего вв автономном режиме вы также можете перейти по этой ссылке, чтобы увидеть многоузловой режим:

При запуске H2O в автономном режиме с помощью простой команды запуска Java мы можем передать учетные данные S3 двумя способами.

Вы можете передать учетные данные в автономном режиме, создав файл core-site.xml и передав его с флагом -hdfs_config.Пример файла core-site.xml приведен в Core-site.xml.

  1. Измените свойства в файле core-site.xml, указав свой идентификатор ключа доступа и ключ доступа, как показано вследующий пример:

<property> <name>fs.s3.awsAccessKeyId</name> <value>[AWS SECRET KEY]</value> </property>

<property> <name>fs.s3.awsSecretAccessKey</name> <value>[AWS SECRET ACCESS KEY]</value> </property>

Запустите файл конфигурации core-site.xml, введя в командной строке следующее: java -jar h2o.jar -hdfs_config core-site.xml

Импортируйте данные, используя importFile с S3Путь к URL: s3://bucket/path/to/file.csv.Вы можете передать Ключ доступа Minio и Секретный Ключ доступа в URL-адресе S3 в Flow, R или Python (где AWS_ACCESS_KEY представляет ваше имя пользователя, а AWS_SECRET_KEY представляет ваш пароль).

Комуимпортировать данные из API потока: importFiles [ "s3://<AWS_ACCESS_KEY>:<AWS_SECRET_KEY>@bucket/path/to/file.csv" ]

...