Я пытаюсь записать потоковые данные в файл Parquet с помощью writeStream, и вот как выглядит код:
block_sz = 1024
transactionFlattenedDf \
.writeStream \
.format("parquet") \
.option("checkpointLocation", "/app/business_rules/") \
.queryName("movies")\
.option("parquet.block.size", block_sz)\
.option("path", "/") \
.start()\
.awaitTermination(10)
Я мог видеть, что создается папка _spark_metadata с этим вводом
{"path":"file:///part-00000-c5efe322-adbb-4699-b8b1-406f59372149-c000.snappy.parquet","size":5574,"isDir":false,"modificationTime":1596661576000,"blockReplication":1,"blockSize":33554432,"action":"add"}
Однако я не вижу файл паркета. Не уверен, что делаю неправильно. Любая помощь будет принята с благодарностью.
Спасибо.