Пакетный прием Hadoop - PullRequest
0 голосов
/ 04 июня 2019

У нас есть необработанные данные, которые хранятся и обновляются в кластере hdfs, мы хотим ввести необработанные данные в кластер druid для аналитических целей.

Необработанные данные в формате hdf хранятся в правильной структуре пути, ожидаемой от друида. Чтобы получить данные из hdfs, мы можем просто выполнить пакетную загрузку через некоторый интервал времени, давайте предположим, что мы выполняем пакетную загрузку каждый час, мы можем просто выполнять пакетную загрузку hadoop каждый час - с интервалом, установленным в качестве текущего часа, но проблема возникает из-за отложенных событий, существует вероятность того, что в течение текущего часа любые данные за предыдущий час также могут быть добавлены в hdfs, теперь простой пакетный прием hdfs с интервалом текущего часа не будет работать.

Есть ли какой-нибудь механизм, предоставляемый в друиде, который допускает такой прием из hdfs?

...