Я планирую реализовать реестр / проверки схемы для событий данных, которые поступают через kafka.
Я реализовал разбор json в предопределенную схему, но без проверки схемы.Моя новая задача - реализовать регистрацию / проверку схемы на spark 1.6 (scala 2.10.5).Также я исследовал Kafka Connect -avro Combo, но он не совместим с Hadoop и Kafka версии, которую я использую.
Попытка создания фрейма данных со схемой и попытка синтаксического анализа json с этим фреймом данных не увенчались успехом, поскольку файл json содержит более 20 столбцов.Так что в основном мне нужно жестко закодировать столбцы.
Какие библиотеки или инструмент мне нужно использовать?Моя версия hadoop -> Cloudera 5.7 Kafka - .8 Hive -1.1 Spark -1.6 Scala -2.10.5