Чтение потока из kafka с использованием spark streaming и присвоение ему схемы - PullRequest
0 голосов
/ 09 сентября 2018

Я пытаюсь прочитать поток из kafka, где значение представляет собой строку значений, разделенных запятыми (представляющих столбцы в наборе данных) Цель состоит в том, чтобы прочитать два таких потока и присоединиться к ним.

Если я читал из файла, есть способ сделать это, назначив разделитель и схему входному потоку. Вот что я могу сделать:

val stearm_L: DataFrame = spark.readStream
      .option("sep", ";")
      .schema(schema_L)
      .csv("inputFileSteam_L")

Как мне сделать то же самое, если я читаю из kafka вместо файла?

1 Ответ

0 голосов
/ 10 сентября 2018

Вместо csv("filename"), вы в основном заменяете это на format("kafka").

В разделе Spark Streaming есть страница об интеграции Kafka для более подробной информации.

Что касается разбора CSV, см. потоковое искрообразование: чтение строки CSV из kafka, запись в паркет

...