Как быстро / в реальном времени обслуживать данные из HDFS в моих сервисах? - PullRequest
0 голосов
/ 04 октября 2019

В настоящее время в моей компании каждая команда, которой необходимо предоставлять данные из HDFS пользователям, создает собственный инструмент для этой задачи.

Мы хотим создать универсальный инструмент для быстрого обслуживания в реальном времени, которыйданные через HTTP от HDFS до моих сервисов. Под общим я имею в виду, что инструмент должен обслуживать данные только для выбранных мной сервисов, добавленных в конфигурацию, и это должно быть единственным действием, которое пользователи должны выполнять, чтобы использовать этот универсальный инструмент. Этот новый инструмент должен информироваться о новых данных, появившихся в HDFS, а затем вызывать какую-то работу, которая перемещает данные из HDFS в наше быстрое хранилище.

Приложения могут обновлять свои данные каждый день или каждый час, но каждая служба может делать это в разное время (служба A может обновляться каждый день в 7:00, а служба B может обновляться каждый час). Я думаю, что мы не хотим использовать какие-либо схемы и хотим получить доступ к нашим данным, используя только ключ и дату раздела. Запросы не нужны.

Мы пока не знаем, сколько емкости или операций чтения / записи в секунду необходимо выдержать нашему инструменту.

Мы разработали какое-то решение для нашей проблемы, но нам интересноесли уже есть подобные решения в open source или, может быть, у кого-то из вас был похожий вариант использования? Это наше предложение архитектуры: архитектура

1 Ответ

0 голосов
/ 04 октября 2019

Если вам нужен доступ к HDFS через HTTP, тогда WebHDFS может соответствовать вашему варианту использования. Вы могли бы добавить слой кэширования для ускорения запросов на горячие файлы, но я думаю, что пока вы используете HDFS, вы никогда не получите ответ в секунду, если файл еще не кэширован. Вы должны решить, является ли это приемлемым для вас.

Я не уверен, насколько хорошо WebHDFS работает с большими файлами.

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

...