У меня есть таблица presto, которая импортирует файлы PARQUET на основе разделов из s3 следующим образом:
create table hive.data.datadump
(
tUnixEpoch varchar,
tDateTime varchar,
temperature varchar,
series varchar,
sno varchar,
date date
)
WITH (
format = 'PARQUET',
partitioned_by = ARRAY['series','sno','date'],
external_location = 's3a://dev/files');
Структура папок S3, в которой хранятся файлы паркета, выглядит следующим образом:
s3a://dev/files/series=S5/sno=242=/date=2020-1-23
и раздел начинается с серии.
Исходный код в pyspark, который создает файлы паркета, имеет всю схему как строковый тип, и я пытаюсь импортировать его как строку, но когда я запускаю сценарий создания в Presto , он успешно создал таблицу, но не может импортировать данные.
При запуске,
select * from hive.data.datadump;
Я получаю следующую ошибку:
[Code: 16777224, SQL State: ] Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE[Code: 16777224, SQL State: ] Query failed (#20200123_191741_00077_tpmd5): The column tunixepoch is declared as type string, but the Parquet file declares the column as type DOUBLE
Не могли бы вы, ребята, помочь решить эту проблему? Заранее спасибо!