Question

Мой вариант использования 1. Считайте данные из Kafka, проанализируйте их и запишите в HDFS как файлы ORC. 2. Запустите динамический запрос к таблице Hive для столбца даты из данных.

Я могу легко выполнить шаг 1 (запись в HDFS) Но для шага 2 (изменить запрос таблицы) я попробовал foreachwriter. Но так как мой кластер кеборизован, установить JDBC сложно. Я попытался настроить все конфиги, но все еще сталкиваюсь с проблемами с foreachwriter.

Также я хочу убедиться, что шаг 2 следует после шага 1 для всех микробатчей. Я не уверен, как ведет себя потоковое структурирование в этом сценарии?

Есть ли другой способ выполнить шаг 2?

Заранее спасибо.

Spark Структурированная потоковая передача, запись в HDFS и динамическое выполнение таблицы Alter в Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark Структурированная потоковая передача, запись в HDFS и динамическое выполнение таблицы Alter в Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы