В настоящее время в моей компании каждая команда, которой необходимо предоставлять данные из HDFS пользователям, создает собственный инструмент для этой задачи.
Мы хотим создать универсальный инструмент для быстрого обслуживания в реальном времени, которыйданные через HTTP от HDFS до моих сервисов. Под общим я имею в виду, что инструмент должен обслуживать данные только для выбранных мной сервисов, добавленных в конфигурацию, и это должно быть единственным действием, которое пользователи должны выполнять, чтобы использовать этот универсальный инструмент. Этот новый инструмент должен информироваться о новых данных, появившихся в HDFS, а затем вызывать какую-то работу, которая перемещает данные из HDFS в наше быстрое хранилище.
Приложения могут обновлять свои данные каждый день или каждый час, но каждая служба может делать это в разное время (служба A может обновляться каждый день в 7:00, а служба B может обновляться каждый час). Я думаю, что мы не хотим использовать какие-либо схемы и хотим получить доступ к нашим данным, используя только ключ и дату раздела. Запросы не нужны.
Мы пока не знаем, сколько емкости или операций чтения / записи в секунду необходимо выдержать нашему инструменту.
Мы разработали какое-то решение для нашей проблемы, но нам интересноесли уже есть подобные решения в open source или, может быть, у кого-то из вас был похожий вариант использования? Это наше предложение архитектуры: архитектура