У нас есть несколько отчетов .txt с разделителем каналов, поступающих в папку в S3, для которой мы запускаем Glue Crawler, чтобы определить схему и запрос в Афине.
Формат отчета недавно изменился, поэтому существует двановые столбцы посередине.
Старые файлы:
Columns A B C D E F
Data a1 b1 c1 d1 e1 f1
Новые файлы с дополнительными столбцами "G" и "H":
Columns A B G H C D E F
Data a2 b2 g2 h2 c2 d2 e2 f2
Что мы получаем втаблица, созданная сканером, как видно из Афины:
Columns A B C D E F G H <- Puts new columns at the end. OK
Data a1 b1 c1 d1 e1 f1 <- Correct for old data
Data a2 b2 g2 h2 e2 f2 <- 4 columns incorrect and 2 missing
Это какая-то ошибка в сканере клея, или есть способ настроить ее так, чтобы она помещала правильные данные в правильные столбцы (другиечем запустить скрипт очистки данных для преобразования входных файлов)?