Spark структурированная потоковая передача с задержкой записи данных во время агрегации и JOIN при потоковой передаче данных со статическими данными в режиме добавления - PullRequest
0 голосов
/ 05 февраля 2019

Исключает структурированную задержку потоковой передачи данных каждый раз, когда поступают новые данные.Я беру данные из Кафаки за каждую минуту.Я выполнил некоторые операции объединения и объединения потоковых данных со статическими данными. Я записываю данные в папку hdfs в режиме APPEND.моя проблема заключается в том, что мое окно времени составляет 1 секунду.

моя проблема заключается в том, что когда я добавляю данные в kafkatopic, запись данных в HDFS не выполняется даже через 2 секунды.kafka.

если я добавлю некоторые данные-1 на kafka spark, то ничего не напишу, так как это ожидает некоторой концепции отметки максимального времени. Это согласовано.я добавил дату-2 - до сих пор спарк ничего не пишет.когда я добавляю datae-3-еще искра ничего не пишет.когда я добавляю данные-4 - спарк-запись данных-1 в HDFS.я использую следующие для записи данных в HDFS

  df.writeStream.option("latestFirst", "true").option("maxFilesPerTrigger", "20").option("startingOffsets", "latest").option("checkpointLocation", "/user/sdt/sparkCheckpoint/").outputMode("append").trigger(Trigger.ProcessingTime("10 seconds")).partitionBy("date").format("csv").option("path", "hdfs://dddd/area.table1/").start().awaitTermination()

Может кто-нибудь помочь с тем, как получить данные, как и когда они поступают на Кафка? Нужно ли мне изменять какие-либо настройки при записи данных

...