Мы используем H2O (последняя версия 3.22.1.1) для чтения данных паркета из s3. Мы используем Python для общения с H2O. Это один экземпляр H2O, а не кластер.
Иногда мы получаем эту ошибку:
Ошибка сервера water.exceptions.H2OIllegalArgumentException:
Ошибка: невозможно определить тип файла. для s3a: //BUCKET_NAME/5c2e3fdc0c9c1800019c73f9/part-00001-c33635a2-76dc-4e49-948b-465726b7e3d9-c000.snappy.parquet
Файл существует и является действительным файлом паркета. Последующий импорт работает нормально.
Это наш код Python для импорта файла в H2O
h2o.import_file (путь = 'S3A: //BUCKET_NAME/5c2e3fdc0c9c1800019c73f9/part-00001-c33635a2-76dc-4e49-948b-465726b7e3d9-c000.snappy.parquet')
Есть ли способ заставить h2o использовать тип паркета?