Какую платформу (и) hadoop можно использовать в сценарии, близком к RDBMS? - PullRequest
0 голосов
/ 08 ноября 2019

Мы находимся в фазе анализа для проекта, в котором мы заменяем старую систему хранения, которая будет основана на hdfs и кустах, используемых для создания отчетов и просмотра.

Но мы получили запрос, если мы можем использовать hdfsиспользовать его при замене части работы с базой данных.

Ожидаемые сценарии следующие:

  1. В таблицах будут храниться ежедневные данные о трафике .. около 400 точек мониторинга.
  2. Некоторые из таблиц в пункте 1 будут использоваться в качестве входных данных для процесса, который будет выполнять некоторые преобразования и выводить данные в другие таблицы.
  3. Таблицы в пунктах 1 и 2 должны использоваться в качестве базовых таблиц для представлений, которые будут использоваться впортал отчетности. Это может быть доступно пользователям в любое время.
  4. Ожидается неправильная загрузка на любом этапе, поэтому таблицы должны поддерживать удаление / обновление для некоторых строк.
  5. Приблизительно 50% таблиц могут превышать сотни миллионовзаписей ... но другие будут 1k, 50k, 1M .. 10M .., поскольку это будет агрегированная информация.
  6. Агрегирование запросов с объединениями очень возможно для любых таблиц.

Я знаю, что экосистема hadoop большая и может иметь множество комбинаций, поэтому я бы попросил вас помочь мне в этом.

  1. Улей может поддерживать часть сценария, такую ​​как пункты 1,2 и 3 ... но целесообразно ли использовать его таким образом (с точки зрения работы)
  2. Что еще можно использовать для охвата большинства этих сценариев? hbase, куду .. микс других вещей?

Прости меня .. я новичок в этом

1 Ответ

0 голосов
/ 08 ноября 2019

Вы можете попытаться использовать Apache Phoenix: http://phoenix.apache.org/ Поскольку приложение легко установить через HBase, разрешить определение таблиц и грамматику SQL, также поддерживать представления, а также поддерживать вторичную индексацию.

ИзКонечно, и объединения, и агрегация придут по цене. И все же требуется хорошая модель.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...