Question

После пакета Spark ETL мне нужно записать в тему Kafka результирующий DataFrame, содержащий несколько различных столбцов.

Согласно следующей документации Spark https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html Dataframe, записываемый в Kafka, должениметь следующий обязательный столбец в схеме:

значение (обязательно) строка или двоичный файл

Как я упоминал ранее, у меня гораздо больше столбцов со значениями, поэтому у меня есть вопросправильно отправить всю строку DataFrame как одно сообщение в тему Кафки из моего приложения Spark?Нужно ли объединять все значения из всех столбцов в новый DataFrame с одним столбцом значений (который будет содержать объединенное значение), или есть более правильный способ достижения этого?

user10696091 · Answer 1 · 23 ноября 2018

Правильный способ сделать это уже намекается на документацию и не отличается от того, что вы делаете с любым клиентом Kafka - вы должны сериализовать полезную нагрузку перед отправкой в Kafka.

Как вы будете это делать (to_json, to_csv, Apache Avro ) зависит от ваших бизнес-требований - никто не может ответить на этот вопрос, кроме вас (или ваша команда).

Spark Batch написать в тему Кафка из многостолбцовой DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark Batch написать в тему Кафка из многостолбцовой DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы