AWS Сканер клея: другая схема для входных данных - PullRequest
0 голосов
/ 23 января 2020

У меня есть подпапка в корзине S3 для хранения CSV-файлов. Все эти CSV-файлы содержат данные из одного указанного c источника данных. Источник данных предоставляет новый файл CSV ежемесячно. У меня есть данные за 4 года.

В какой-то момент (~ 2 года go) источник данных решил изменить формат данных. Схема CSV изменилась (некоторые столбцы были удалены). Данные все еще более или менее одинаковы, и все, что я хочу, все еще там.

Я хочу использовать сканер для регистрации обеих схем, предпочтительно в одной таблице. В идеале мне бы хотелось, чтобы он распознал две версии схемы.

Как мне это сделать?

Что я пробовал

  • Я загрузил все файлы в подпапке и запустите сканер с включенным «Создать отдельную схему для каждого пути S3».

Результат: я получил одну таблицу с объединенными обеими схемами: одна большая схема со всеми столбцами из обоих форматов

  • Я загрузил все файлы в подпапку и запустил сканер с отключенным «Создать одну схему для каждого пути S3».

Результат: я получил две таблицы с две разные схемы

Зачем мне это нужно

Две разные схемы нужно обрабатывать по-разному. Я пишу Python оболочку для обработки файлов. Моя идея состояла в том, чтобы использовать каталог для извлечения двух разных версий схемы и запуска различных обработок для каждого файла в зависимости от схемы файла.

...