Искровые струйные ошибки записи - PullRequest
0 голосов
/ 12 июня 2018

Я сталкиваюсь с некоторыми странными ошибками, когда я получаю и поглощаю сообщения кафки.Я использую 2.3.0, и я знаю, что раньше это работало в какой-то другой версии.

val event = spark.readStream.format("kafka")
.option("kafka.bootstrap.servers", <server list>)
.option("subscribe", <topic>)
.load()

val filesink_query = outputdf.writeStream
.partitionBy(<some column>)
.format("parquet")
.option("path", <some path in EMRFS>)
.option("checkpointLocation", "/tmp/ingestcheckpoint")
.trigger(Trigger.ProcessingTime(10.seconds))
.outputMode(OutputMode.Append)
.start 



java.lang.IllegalStateException: /tmp/outputagent/_spark_metadata/0 doesn't exist when compacting batch 9 (compactInterval: 10)

Я в замешательстве, это ошибка в новейшей версии spark?

1 Ответ

0 голосов
/ 17 июня 2018
Кажется, проблема

связана с использованием S3n поверх s3a и наличием только контрольных точек на hdfs, а не на s3.Это очень раздражает, потому что я хотел бы избежать жесткого кодирования DNS или IPS в моем коде.

...