Мой вариант использования
1. Считайте данные из Kafka, проанализируйте их и запишите в HDFS как файлы ORC.
2. Запустите динамический запрос к таблице Hive для столбца даты из данных.
Я могу легко выполнить шаг 1 (запись в HDFS)
Но для шага 2 (изменить запрос таблицы) я попробовал foreachwriter. Но так как мой кластер кеборизован, установить JDBC сложно. Я попытался настроить все конфиги, но все еще сталкиваюсь с проблемами с foreachwriter.
Также я хочу убедиться, что шаг 2 следует после шага 1 для всех микробатчей. Я не уверен, как ведет себя потоковое структурирование в этом сценарии?
Есть ли другой способ выполнить шаг 2?
Заранее спасибо.