S3 Query Exception (Fetch) - PullRequest
       26

S3 Query Exception (Fetch)

0 голосов
/ 02 июля 2018

Я загрузил данные из Redshift в S3 в формате Parquet и создал каталог данных в Glue. Мне удалось запросить таблицу из Афины, но когда я создаю внешнюю схему в Redshift и пытаюсь выполнить запрос к таблице, я получаю сообщение об ошибке ниже

ERROR:  S3 Query Exception (Fetch)
DETAIL:
  -----------------------------------------------
  error:  S3 Query Exception (Fetch)
  code:      15001
  context:   Task failed due to an internal error. File 'https://s3-eu-west-1.amazonaws.com/bucket/folder/partition_key/filename.parquet_1  has an incompatible Parquet schema for column 's3://bucket/folder
  query:     560922
  location:  dory_util.cpp:717
  process:   query1_118_560922 [pid=32409]
  -----------------------------------------------

Запросы хорошо работают в Афине

Ответы [ 2 ]

0 голосов
/ 30 июля 2018

Я сталкивался с этим и раньше. У Афины, похоже, нет такой строгой проверки схем файлов, как в Redshift.

В каждом файле паркета есть определение схемы. Если определение схемы в файле не соответствует определению таблицы или отличается от одного или нескольких других файлов, запросы Redshift не будут выполнены, в то время как запросы Athena могут быть выполнены успешно, если затронутые столбцы отсутствуют в запросе.

0 голосов
/ 03 июля 2018

Это как бы говорит вам, что не так - схема таблицы / раздела и содержимое файла слишком сильно различаются. Самый простой способ исправить это - запустить сканер в местоположении данных с установленным флажком «обновить определение каждого раздела из таблицы».

...