Question

Мы находимся в фазе анализа для проекта, в котором мы заменяем старую систему хранения, которая будет основана на hdfs и кустах, используемых для создания отчетов и просмотра.

Но мы получили запрос, если мы можем использовать hdfsиспользовать его при замене части работы с базой данных.

Ожидаемые сценарии следующие:

В таблицах будут храниться ежедневные данные о трафике .. около 400 точек мониторинга.
Некоторые из таблиц в пункте 1 будут использоваться в качестве входных данных для процесса, который будет выполнять некоторые преобразования и выводить данные в другие таблицы.
Таблицы в пунктах 1 и 2 должны использоваться в качестве базовых таблиц для представлений, которые будут использоваться впортал отчетности. Это может быть доступно пользователям в любое время.
Ожидается неправильная загрузка на любом этапе, поэтому таблицы должны поддерживать удаление / обновление для некоторых строк.
Приблизительно 50% таблиц могут превышать сотни миллионовзаписей ... но другие будут 1k, 50k, 1M .. 10M .., поскольку это будет агрегированная информация.
Агрегирование запросов с объединениями очень возможно для любых таблиц.

Я знаю, что экосистема hadoop большая и может иметь множество комбинаций, поэтому я бы попросил вас помочь мне в этом.

Улей может поддерживать часть сценария, такую как пункты 1,2 и 3 ... но целесообразно ли использовать его таким образом (с точки зрения работы)
Что еще можно использовать для охвата большинства этих сценариев? hbase, куду .. микс других вещей?

Прости меня .. я новичок в этом

CharlieNoodles · Answer 1 · 08 ноября 2019

Вы можете попытаться использовать Apache Phoenix: http://phoenix.apache.org/ Поскольку приложение легко установить через HBase, разрешить определение таблиц и грамматику SQL, также поддерживать представления, а также поддерживать вторичную индексацию.

ИзКонечно, и объединения, и агрегация придут по цене. И все же требуется хорошая модель.

Какую платформу (и) hadoop можно использовать в сценарии, близком к RDBMS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какую платформу (и) hadoop можно использовать в сценарии, близком к RDBMS?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы