У меня есть источник Kafka DataStream, который содержит идентификаторы.У меня также есть база данных, которая содержит дополнительные данные, такие как Имя, Режим, которые я хочу добавить к источнику входных данных.
Моя первоначальная попытка включала использование асинхронного ввода-вывода для запроса Hive для этих данных.Я даже окно входящих данных, чтобы уменьшить количество запросов, отправляемых в базу данных.К сожалению, исходный поток данных довольно большой, поэтому я не могу запросить его напрямую с помощью куста, поскольку он вызывает много проблем с производительностью.
Теперь я думаю об использовании данных, хранящихся в hdfs, в виде файлов паркета в виде StreamTableSource
, который я могу затем использовать для обогащения входящих данных из Kafka
.Поэтому у меня есть пара вопросов по этому поводу.
- Это хороший способ решить эту проблему?т.е. используя данные в качестве источника таблицы вместо async io?
- Если это так, мне следует создавать таблицу на основе оконных данных и обрабатывать каждое окно или есть лучший способ?