Я пытаюсь прочитать данные JSON для моего проекта при чтении потоковых данных с использованием потоковой структуры с искрой (версия spark 2.3).
Проблема: Я не могу запросить данные из приемника памяти, так как спарк-оболочка зависает при каждой попытке.
Если я изменю формат на консольный приемник, он будет работать с ожидаемой логикой. Я изучил документацию, но не смог
выяснить, где я иду не так.
Если я проверю это на веб-интерфейсе spark, данные будут обработаны.
Я использую это на YARN
SPARK_VERSION :2.3
//Reading json file from the directory
val static = spark.read.json("read directory")
//Reading schema
val dataSchema = static.schema
// COMMAND ----------
// in Scala
val streaming = spark.readStream.schema(dataSchema)
.option("maxFilesPerTrigger", 1).json("directory")
// in Scala grouping by "gt" column
val activityCounts = streaming.groupBy("gt").count()
// in Scala
val activityQuery = activityCounts.writeStream.queryName("activity_counts")
.format("memory").outputMode("complete")
.start()
activityQuery.awaitTermination()
--This is where it always gets stuck