Я узнал, что Glue хочет, чтобы все похожие файлы (файлы с одинаковой структурой и назначением) находились в одной папке с необязательными подпапками.
s3://my-bucket/report-type-a/yyyy/mm/dd/file1.txt
s3://my-bucket/report-type-a/yyyy/mm/dd/file2.txt
...
s3://my-bucket/report-type-b/yyyy/mm/dd/file23.txt
Все файлы в папке report-type-aдолжен быть в том же формате.Поместите другой отчет, например report-type-b, в другую папку.
Вы можете попробовать поместить только несколько входных файлов в нужное место, запустить задание ETL, поместить больше файлов в корзину, запуститьснова и т. д.
Я попробовал это, заставив текущие файлы работать (один файл в день), а затем заполнив исторические файлы.Обратите внимание, что это не сработало полностью.Я получаю файлы, обработанные нормально в s3://my-bucket/report-type/2019/07/report_20190722.gzp
, но когда я пытался добавить прошлые файлы в 's3: // my-bucket / report-type / 2019/05 / report_20190510.gzip`, клей не "видел" илиобработать файл в более старой папке.
Однако, если я переместил старый отчет в текущий раздел, он заработал: s3://my-bucket/report-type/2019/07/report_20190510.gzip
.