Почему writeStream не пишет в дельта-формате, хотя я его и закодировал - PullRequest
0 голосов
/ 10 января 2020

Вот мой код. WriteStream записывает записи в формате «паркет», но не в «дельта», хотя я упоминал формат «дельта».

spark
.readStream
.format("delta")
.option("latestFirst","true")
.option("ignoreDeletes", "true")
.option("ignoreChanges","true")
.load("/mnt/data-lake/data/bronze/accounts")
.writeStream
.format("delta")
.outputMode("append")
.option("checkpointLocation","/mnt/data-lake/tmp/chkpnt_accounts_inserts")
.option("path","/mnt/data-lake/tmp/accounts_inserts")
.start()

1 Ответ

0 голосов
/ 06 февраля 2020

Совместное использование ответа в соответствии с комментарием исходного автора.

В каталоге _delta_log нет «дельта-формата», но есть паркет с журналом транзакций. Если есть этот каталог, вы, вероятно, используете дельта-формат.

Я упоминал дельту, как в формате, который мы даем "дельта". Я до сих пор понимаю, что это формат паркета. Однако моя проблема была решена при следующем запуске и был создан каталог _delta_log.

...