Я пытаюсь прочитать данные из kafka и загрузить их в базу данных greenplum с помощью spark. я использую соединитель greenplum-spark, но получаю источник данных io.pivotal.greenplum.spark.GreenplumRelationProvider не поддерживает потоковую запись.
Это тот источник Greenplum не поддерживает потоковые данные? Я вижу на сайте надпись «Непрерывный конвейер ETL (потоковая передача)».
Я попытался указать источник данных как "greenplum" и "io.pivotal.greenplum.spark.GreenplumRelationProvider" в .format ("источник данных")
val EventStream = spark.readStream
.format("kafka")
.option("kafka.bootstrap.servers", args(0))
.option("subscribe", args(1))
.option("startingOffsets", "earliest")
.option("failOnDataLoss", "false")
.load
val gscWriteOptionMap = Map(
"url" -> "link for greenplum",
"user" -> "****",
"password" -> "****",
"dbschema" -> "dbname"
)
val stateEventDS = EventStream
.selectExpr("CAST(key AS String)", "*****(value)")
.as[(String, ******)]
.map(_._2)
val EventOutputStream = stateEventDS.writeStream
.format("io.pivotal.greenplum.spark.GreenplumRelationProvider")
.options(gscWriteOptionMap)
.start()
assetEventOutputStream.awaitTermination()