Presto не может импортировать файлы PARQUET из S3 - PullRequest
1 голос
/ 23 января 2020

У меня есть таблица presto, которая импортирует файлы PARQUET на основе разделов из s3 следующим образом:

create table hive.data.datadump
( 
    tUnixEpoch varchar,
    tDateTime varchar,
    temperature varchar,
    series varchar,
    sno varchar,
    date date
    )
 WITH (
 format = 'PARQUET',
 partitioned_by = ARRAY['series','sno','date'], 
 external_location = 's3a://dev/files');

Структура папок S3, в которой хранятся файлы паркета, выглядит следующим образом:

s3a://dev/files/series=S5/sno=242=/date=2020-1-23

и раздел начинается с серии.

Исходный код в pyspark, который создает файлы паркета, имеет всю схему как строковый тип, и я пытаюсь импортировать его как строку, но когда я запускаю сценарий создания в Presto , он успешно создал таблицу, но не может импортировать данные.

При запуске,

select * from hive.data.datadump;

Я получаю следующую ошибку:

[Code: 16777224, SQL State: ]  Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE[Code: 16777224, SQL State: ]  Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE

Не могли бы вы, ребята, помочь решить эту проблему? Заранее спасибо!

...