etl_devs 11 июля 2019 21

получить имя файла, обрабатываемого в pyspark структурированном потоке

etl_devs / 11 июля 2019

Я использую искру 2.3. Я отслеживаю каталог для файлов, используя pyspark с кодом ниже.

sparkStreaming2 = SparkSession \
.builder \
.appName("StructuredNetworkWordCount") \
.getOrCreate()

setJsonStream=sparkStreaming2.readStream.schema(json_schema).\
  option("maxFilesPerTrigger", 1).\
  csv("/logdir")
sql1=setJsonStream.groupby('gt').count()
jsonQuery=sql1.writeStream.outputMode("complete").format("console").start()

Этот код работает отлично.

Но теперь мы должны напечатать имя файла, который был обработан (так как мы читаем 1 файл за раз).

Есть ли способ достичь этого.

...