AWS Glue crawler - порядок столбцов во входных файлах - PullRequest
0 голосов
/ 30 марта 2020

Я создал два раздела в корзине s3 и загружал файл csv в каждую папку. Соответственно запустил сканер Glue поверх этих файлов, которые зарегистрированы как таблица в каталоге Glue, которые я могу запросить через Athena.

  1. Partition-1: Загрузка файла CSV в файл s3, файл CSV имеет 5 столбцов
  2. Раздел-2: при загрузке CSV-файла в s3 файл CSV имеет те же 5 столбцов, что и выше, но в другом порядке по сравнению с (1)

Когда я запускаю При первом поиске (1) он создает таблицу / схему Glue. Позже, когда я загружаю те же данные в другом порядке в другой раздел, как (2), и запускаю искатель, он просто пытается сопоставить второй файл со схемой, уже созданной как часть (1), что приводит к проблемам с данными.

Важен ли порядок столбцов в Glue? Обрабатывает ли сканер автоматически столбцы по имени, а не в том же порядке (2), что и (1).

1 Ответ

1 голос
/ 30 марта 2020

Порядок важен в CSV-файлах. Любое изменение заставляет думать, что схема отличается. Однако, если вы используете файлы паркета, то порядок можно воспроизвести с помощью

...