Получить пути к файлам для всех файлов, записанных из задания Spark Streaming - PullRequest
0 голосов
/ 01 октября 2019

Я огляделся и не могу ничего найти по этому поводу. Мне интересно, есть ли способ заставить работу Spark Streaming предоставить вам список файлов, которые она написала. Я знаю, что есть input_file_name UDF, есть ли какой-то подобный UDF для output_file_name?

Может быть, что-то вроде этого псевдокода:

writer = df.write.partitionBy("foo", "bar").parquet("s3://bucket/")
output_file_names = writer.getOutputFilesNames()
...