Обогащение DataStream данными в файлах паркета - PullRequest
0 голосов
/ 28 января 2019

У меня есть источник Kafka DataStream, который содержит идентификаторы.У меня также есть база данных, которая содержит дополнительные данные, такие как Имя, Режим, которые я хочу добавить к источнику входных данных.

Моя первоначальная попытка включала использование асинхронного ввода-вывода для запроса Hive для этих данных.Я даже окно входящих данных, чтобы уменьшить количество запросов, отправляемых в базу данных.К сожалению, исходный поток данных довольно большой, поэтому я не могу запросить его напрямую с помощью куста, поскольку он вызывает много проблем с производительностью.

Теперь я думаю об использовании данных, хранящихся в hdfs, в виде файлов паркета в виде StreamTableSource, который я могу затем использовать для обогащения входящих данных из Kafka.Поэтому у меня есть пара вопросов по этому поводу.

  1. Это хороший способ решить эту проблему?т.е. используя данные в качестве источника таблицы вместо async io?
  2. Если это так, мне следует создавать таблицу на основе оконных данных и обрабатывать каждое окно или есть лучший способ?
...