Мы находимся в фазе анализа для проекта, в котором мы заменяем старую систему хранения, которая будет основана на hdfs и кустах, используемых для создания отчетов и просмотра.
Но мы получили запрос, если мы можем использовать hdfsиспользовать его при замене части работы с базой данных.
Ожидаемые сценарии следующие:
- В таблицах будут храниться ежедневные данные о трафике .. около 400 точек мониторинга.
- Некоторые из таблиц в пункте 1 будут использоваться в качестве входных данных для процесса, который будет выполнять некоторые преобразования и выводить данные в другие таблицы.
- Таблицы в пунктах 1 и 2 должны использоваться в качестве базовых таблиц для представлений, которые будут использоваться впортал отчетности. Это может быть доступно пользователям в любое время.
- Ожидается неправильная загрузка на любом этапе, поэтому таблицы должны поддерживать удаление / обновление для некоторых строк.
- Приблизительно 50% таблиц могут превышать сотни миллионовзаписей ... но другие будут 1k, 50k, 1M .. 10M .., поскольку это будет агрегированная информация.
- Агрегирование запросов с объединениями очень возможно для любых таблиц.
Я знаю, что экосистема hadoop большая и может иметь множество комбинаций, поэтому я бы попросил вас помочь мне в этом.
- Улей может поддерживать часть сценария, такую как пункты 1,2 и 3 ... но целесообразно ли использовать его таким образом (с точки зрения работы)
- Что еще можно использовать для охвата большинства этих сценариев? hbase, куду .. микс других вещей?
Прости меня .. я новичок в этом