Как читать события типа Avro Schema из kafka и сохранять их в таблице Hive - PullRequest
0 голосов
/ 29 июня 2018

Моя идея состоит в том, чтобы использовать Spark Streaming + Kafka для получения событий от шины kafka. После получения пакета событий, закодированных в avro, я хотел бы преобразовать их с помощью Spark Avro в кадры данных SparkSQL, а затем записать кадры данных в таблицу Hive.

Возможен ли такой подход? Я новичок в спарке и не совсем уверен, смогу ли я использовать пакет Spark Avro для декодирования событий Kafka, поскольку в документации упоминаются только файлы avro. Но я понимаю, что это возможно.

Следующий вопрос: если это возможно, я понимаю, что у меня есть Dataframe, соответствующий SparkSQL, который я могу записать в таблицу кустов. Верны ли мои предположения?

Заранее благодарим за любые советы и подсказки.

1 Ответ

0 голосов
/ 02 июля 2018

Да, вы могли бы сделать это http://aseigneurin.github.io/2016/03/04/kafka-spark-avro-producing-and-consuming-avro-messages.html

Можно сохранить наборы данных в виде таблиц кустов или записать данные в формате orc. Вы также можете записать данные в требуемом формате в формате hdf и создать внешнюю таблицу кустов поверх этого

...