У меня есть подпапка в корзине S3 для хранения CSV-файлов. Все эти CSV-файлы содержат данные из одного указанного c источника данных. Источник данных предоставляет новый файл CSV ежемесячно. У меня есть данные за 4 года.
В какой-то момент (~ 2 года go) источник данных решил изменить формат данных. Схема CSV изменилась (некоторые столбцы были удалены). Данные все еще более или менее одинаковы, и все, что я хочу, все еще там.
Я хочу использовать сканер для регистрации обеих схем, предпочтительно в одной таблице. В идеале мне бы хотелось, чтобы он распознал две версии схемы.
Как мне это сделать?
Что я пробовал
- Я загрузил все файлы в подпапке и запустите сканер с включенным «Создать отдельную схему для каждого пути S3».
Результат: я получил одну таблицу с объединенными обеими схемами: одна большая схема со всеми столбцами из обоих форматов
- Я загрузил все файлы в подпапку и запустил сканер с отключенным «Создать одну схему для каждого пути S3».
Результат: я получил две таблицы с две разные схемы
Зачем мне это нужно
Две разные схемы нужно обрабатывать по-разному. Я пишу Python оболочку для обработки файлов. Моя идея состояла в том, чтобы использовать каталог для извлечения двух разных версий схемы и запуска различных обработок для каждого файла в зависимости от схемы файла.