Вы можете использовать input_file_name
с фреймом данных, он даст вам абсолютный путь к файлу на строку.
Следующий код даст вам все пути к файлам.
spark.read.table("zen.intent_master").select(input_file_name).distinct.collect
Я предполагаю. В вашем случае вы просто хотите прочитать данные из набора файлов с некоторым регулярным выражением, чтобы затем применить их в фильтре.
Например,
val df = spark.read.table("zen.intent_master").filter(input_file_name.rlike("your regex string"))