Spark Batch написать в тему Кафка из многостолбцовой DataFrame - PullRequest
0 голосов
/ 23 ноября 2018

После пакета Spark ETL мне нужно записать в тему Kafka результирующий DataFrame, содержащий несколько различных столбцов.

Согласно следующей документации Spark https://spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html Dataframe, записываемый в Kafka, должениметь следующий обязательный столбец в схеме:

значение (обязательно) строка или двоичный файл

Как я упоминал ранее, у меня гораздо больше столбцов со значениями, поэтому у меня есть вопросправильно отправить всю строку DataFrame как одно сообщение в тему Кафки из моего приложения Spark?Нужно ли объединять все значения из всех столбцов в новый DataFrame с одним столбцом значений (который будет содержать объединенное значение), или есть более правильный способ достижения этого?

1 Ответ

0 голосов
/ 23 ноября 2018

Правильный способ сделать это уже намекается на документацию и не отличается от того, что вы делаете с любым клиентом Kafka - вы должны сериализовать полезную нагрузку перед отправкой в ​​Kafka.

Как вы будете это делать (to_json, to_csv, Apache Avro ) зависит от ваших бизнес-требований - никто не может ответить на этот вопрос, кроме вас (или ваша команда).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...