Я использую искру 2.3.
Я отслеживаю каталог для файлов, используя pyspark с кодом ниже.
sparkStreaming2 = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()
setJsonStream=sparkStreaming2.readStream.schema(json_schema).\
option("maxFilesPerTrigger", 1).\
csv("/logdir")
sql1=setJsonStream.groupby('gt').count()
jsonQuery=sql1.writeStream.outputMode("complete").format("console").start()
Этот код работает отлично.
Но теперь мы должны напечатать имя файла, который был обработан (так как мы читаем 1 файл за раз).
Есть ли способ достичь этого.