Каталогизация файла .tar в AWS Клей из ведра S3 - PullRequest
1 голос
/ 22 января 2020

У меня есть файл "v1.02_train.tar" (из набора данных Lyft https://level5.lyft.com/dataset/) в AWS S3. Я пытаюсь добавить его в каталог данных AWS Glue.

Как заставить сканер клея AWS обнаружить схему из файла .tar? Я не решаюсь распаковать файл, потому что тогда сканеры будут каталогизировать каждый файл изображения по отдельности, добавляя миллионы таблиц в каталог данных. Кроме того, это увеличит размер корзины S3, что сделает хранилище более дорогим.

Есть идеи, как лучше всего каталогизировать этот набор файлов?

...