Question

Я пытаюсь прочитать данные JSON для моего проекта при чтении потоковых данных с использованием потоковой структуры с искрой (версия spark 2.3). Проблема: Я не могу запросить данные из приемника памяти, так как спарк-оболочка зависает при каждой попытке. Если я изменю формат на консольный приемник, он будет работать с ожидаемой логикой. Я изучил документацию, но не смог выяснить, где я иду не так. Если я проверю это на веб-интерфейсе spark, данные будут обработаны. Я использую это на YARN

SPARK_VERSION :2.3



//Reading json file from the directory
val static = spark.read.json("read directory")

//Reading schema
val dataSchema = static.schema


// COMMAND ----------

// in Scala
val streaming = spark.readStream.schema(dataSchema)
  .option("maxFilesPerTrigger", 1).json("directory")


// in Scala grouping by "gt" column

val activityCounts = streaming.groupBy("gt").count()

// in Scala

val activityQuery = activityCounts.writeStream.queryName("activity_counts")
.format("memory").outputMode("complete")
.start()

activityQuery.awaitTermination()

--This is where it always gets stuck

Проблема потоковой передачи при записи в приемник памяти, хотя приемник консоли работает нормально

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Проблема потоковой передачи при записи в приемник памяти, хотя приемник консоли работает нормально

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы