Spark Структурированная потоковая передача, запись в HDFS и динамическое выполнение таблицы Alter в Hive - PullRequest
0 голосов
/ 26 марта 2019

Мой вариант использования 1. Считайте данные из Kafka, проанализируйте их и запишите в HDFS как файлы ORC. 2. Запустите динамический запрос к таблице Hive для столбца даты из данных.

Я могу легко выполнить шаг 1 (запись в HDFS) Но для шага 2 (изменить запрос таблицы) я попробовал foreachwriter. Но так как мой кластер кеборизован, установить JDBC сложно. Я попытался настроить все конфиги, но все еще сталкиваюсь с проблемами с foreachwriter.

Также я хочу убедиться, что шаг 2 следует после шага 1 для всех микробатчей. Я не уверен, как ведет себя потоковое структурирование в этом сценарии?

Есть ли другой способ выполнить шаг 2?

Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...