У меня есть текстовые файлы в корзине s3 с такими именами файлов
- файл 1 -> bucket / directory / date = 2020-05-01 / abc2020-05-01T05.37xyzds.txt
- файл 2 -> bucket / directory / date = 2020-05-01 / def2020-05-01T06.37pqrst.txt
- файл 3 -> bucket / directory / date = 2020-05- 01 / ghi2020-05-01T07.37lmnop.txt
Мне нужно прочитать файлы, которые записаны в этот каталог в этот час. Например, если принять сегодняшнюю дату как - 2020-05-01, а время - как 7,40 UT C. Затем мне нужно просто прочитать файл 3 и пропустить остальные
Я хочу прочитать эти выбранные файлы на rdd, где начинается моя обработка. Прямо сейчас я загружаю все файлы в rdd и отфильтровываю их на основе столбца timestamp. Но на это уходит очень много времени. Моя текущая инструкция чтения выглядит так:
val rdd = sc.wholeTextFiles("s3a://bucket/directory/date=2020-05-01/")
Любые идеи приветствуются! Спасибо