Я огляделся и не могу ничего найти по этому поводу. Мне интересно, есть ли способ заставить работу Spark Streaming предоставить вам список файлов, которые она написала. Я знаю, что есть input_file_name
UDF, есть ли какой-то подобный UDF для output_file_name
?
Может быть, что-то вроде этого псевдокода:
writer = df.write.partitionBy("foo", "bar").parquet("s3://bucket/")
output_file_names = writer.getOutputFilesNames()