h2o и parquet - невозможно определить тип ошибки - PullRequest
0 голосов
/ 04 января 2019

Мы используем H2O (последняя версия 3.22.1.1) для чтения данных паркета из s3. Мы используем Python для общения с H2O. Это один экземпляр H2O, а не кластер.

Иногда мы получаем эту ошибку:

Ошибка сервера water.exceptions.H2OIllegalArgumentException: Ошибка: невозможно определить тип файла. для s3a: //BUCKET_NAME/5c2e3fdc0c9c1800019c73f9/part-00001-c33635a2-76dc-4e49-948b-465726b7e3d9-c000.snappy.parquet

Файл существует и является действительным файлом паркета. Последующий импорт работает нормально.

Это наш код Python для импорта файла в H2O

h2o.import_file (путь = 'S3A: //BUCKET_NAME/5c2e3fdc0c9c1800019c73f9/part-00001-c33635a2-76dc-4e49-948b-465726b7e3d9-c000.snappy.parquet')

Есть ли способ заставить h2o использовать тип паркета?

1 Ответ

0 голосов
/ 04 января 2019

H20 Руководство говорит, что делать это как df = h2o.import_file("/pathToFile/fileName") Когда вам нужно to load data from the machine(s) running H2O to the machine running Python.

Так что, если ваш сервер не работает H20, возможно, именно поэтому он показывает ошибку.

...