Question

Я пытаюсь прочитать поток из kafka, где значение представляет собой строку значений, разделенных запятыми (представляющих столбцы в наборе данных) Цель состоит в том, чтобы прочитать два таких потока и присоединиться к ним.

Если я читал из файла, есть способ сделать это, назначив разделитель и схему входному потоку. Вот что я могу сделать:

val stearm_L: DataFrame = spark.readStream
      .option("sep", ";")
      .schema(schema_L)
      .csv("inputFileSteam_L")

Как мне сделать то же самое, если я читаю из kafka вместо файла?

cricket_007 · Answer 1 · 10 сентября 2018

Вместо csv("filename"), вы в основном заменяете это на format("kafka").

В разделе Spark Streaming есть страница об интеграции Kafka для более подробной информации.

Что касается разбора CSV, см. потоковое искрообразование: чтение строки CSV из kafka, запись в паркет

Чтение потока из kafka с использованием spark streaming и присвоение ему схемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение потока из kafka с использованием spark streaming и присвоение ему схемы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы