Question

У меня есть таблица presto, которая импортирует файлы PARQUET на основе разделов из s3 следующим образом:

create table hive.data.datadump
( 
    tUnixEpoch varchar,
    tDateTime varchar,
    temperature varchar,
    series varchar,
    sno varchar,
    date date
    )
 WITH (
 format = 'PARQUET',
 partitioned_by = ARRAY['series','sno','date'], 
 external_location = 's3a://dev/files');

Структура папок S3, в которой хранятся файлы паркета, выглядит следующим образом:

s3a://dev/files/series=S5/sno=242=/date=2020-1-23

и раздел начинается с серии.

Исходный код в pyspark, который создает файлы паркета, имеет всю схему как строковый тип, и я пытаюсь импортировать его как строку, но когда я запускаю сценарий создания в Presto , он успешно создал таблицу, но не может импортировать данные.

При запуске,

select * from hive.data.datadump;

Я получаю следующую ошибку:

[Code: 16777224, SQL State: ]  Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE[Code: 16777224, SQL State: ]  Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE

Не могли бы вы, ребята, помочь решить эту проблему? Заранее спасибо!

Presto не может импортировать файлы PARQUET из S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Presto не может импортировать файлы PARQUET из S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы