У меня есть папка с множеством паркетных файлов, имена которых следующие:
user_2018-03-15_checked_products.parquet
user_2018-03-15_unchecked_products.parquet
user_2018-03-14_checked_products.parquet
user_2018-03-14_unchecked_products.parquet
user_2018-03-13_checked_products.parquet
user_2018-03-13_unchecked_products.parquet
user_2018-03-12_checked_products.parquet
user_2018-03-12_unchecked_products.parquet
Я читаю все файлы следующим образом:
val df = spark.read.parquet("path/to/folder")
Папка содержит 100 ГБ данных, и ее размер постепенно увеличивается. Но мне нужно читать только данные за последние 3 дня. В настоящее время я прочитал всю папку, а затем применить filter
? Можно ли использовать какую-то маску для выбора только тех имен файлов, которые относятся к последним 3 дням, вместо чтения всей папки?