Выберите текстовые файлы из корзины s3 для чтения scala - PullRequest
0 голосов
/ 05 мая 2020

У меня есть текстовые файлы в корзине s3 с такими именами файлов

  • файл 1 -> bucket / directory / date = 2020-05-01 / abc2020-05-01T05.37xyzds.txt
  • файл 2 -> bucket / directory / date = 2020-05-01 / def2020-05-01T06.37pqrst.txt
  • файл 3 -> bucket / directory / date = 2020-05- 01 / ghi2020-05-01T07.37lmnop.txt

Мне нужно прочитать файлы, которые записаны в этот каталог в этот час. Например, если принять сегодняшнюю дату как - 2020-05-01, а время - как 7,40 UT C. Затем мне нужно просто прочитать файл 3 и пропустить остальные

Я хочу прочитать эти выбранные файлы на rdd, где начинается моя обработка. Прямо сейчас я загружаю все файлы в rdd и отфильтровываю их на основе столбца timestamp. Но на это уходит очень много времени. Моя текущая инструкция чтения выглядит так:

val rdd = sc.wholeTextFiles("s3a://bucket/directory/date=2020-05-01/")

Любые идеи приветствуются! Спасибо

...