У меня есть файл "v1.02_train.tar" (из набора данных Lyft https://level5.lyft.com/dataset/) в AWS S3. Я пытаюсь добавить его в каталог данных AWS Glue.
Как заставить сканер клея AWS обнаружить схему из файла .tar? Я не решаюсь распаковать файл, потому что тогда сканеры будут каталогизировать каждый файл изображения по отдельности, добавляя миллионы таблиц в каталог данных. Кроме того, это увеличит размер корзины S3, что сделает хранилище более дорогим.
Есть идеи, как лучше всего каталогизировать этот набор файлов?