Question

Я пытаюсь записать потоковые данные в файл Parquet с помощью writeStream, и вот как выглядит код:

block_sz = 1024

transactionFlattenedDf \
    .writeStream \
    .format("parquet") \
    .option("checkpointLocation", "/app/business_rules/") \
    .queryName("movies")\
    .option("parquet.block.size", block_sz)\
    .option("path", "/") \
    .start()\
    .awaitTermination(10)

Я мог видеть, что создается папка _spark_metadata с этим вводом

{"path":"file:///part-00000-c5efe322-adbb-4699-b8b1-406f59372149-c000.snappy.parquet","size":5574,"isDir":false,"modificationTime":1596661576000,"blockReplication":1,"blockSize":33554432,"action":"add"}

Однако я не вижу файл паркета. Не уверен, что делаю неправильно. Любая помощь будет принята с благодарностью.

Спасибо.

WriteStream в файл Parquet, создает только папку _spark_metadata, но не файл parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

WriteStream в файл Parquet, создает только папку _spark_metadata, но не файл parquet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы