Как прочитать последние измененные CSV-файлы из корзины S3? - PullRequest
0 голосов
/ 04 ноября 2019

Я пришел к вам, чтобы узнать, есть ли у вас профессиональные советы для загрузки последних CSV-файлов, сгенерированных заданием Glue, в корзину S3 для загрузки в блокнот Jupyter.

Я использую эту команду для загрузки своихCSV из папки S3. Можно ли выбрать только файлы с последними измененными CSV-файлами?

df = sqlContext.read.csv(
    's3://path', 
    header=True, sep=","
)

До того, как у меня появилась тенденция преобразовывать динамический фрейм данных в классический фрейм данных, чтобы перезаписать старые файлы, сгенерированные моим заданием Glue.

Это невозможно, генерируя DyF

Спасибо

1 Ответ

1 голос
/ 05 ноября 2019

Вы можете использовать S3 boto3 api для получения CSV-файлов с датой последнего изменения, затем отсортировать их, отфильтровать и передать их в Gai или Spark read api.

Кроме того, вы можете использовать AWS S3 Inventory и запросover athena: https://docs.aws.amazon.com/AmazonS3/latest/dev/storage-inventory.html

В Glue есть концепция Job Bookmark, но она предназначена для вновь добавленных файлов, а не для измененных файлов.

...