Таблица настройки для эффективного запроса данных по шкале ТБ - PullRequest
0 голосов
/ 30 сентября 2019

Я ищу несколько предложений по улучшению дизайна или переходу на новые технологии. У нас есть 7 таблиц, и каждая таблица содержит около 200 миллиардов строк, и эти таблицы разделены по дате (гггг-мм-дд) в hive. Каждая таблица содержит около 50-60 атрибутов. Таким образом, общее количество атрибутов составляет около 400+. Конечные пользователи запрашивают эти 7 таблиц за период последних 6 месяцев с более чем 280 атрибутами. Этот запрос часто выполняется пользователями, и время ответа составляет около 10 часов. Мы хотим сократить это время как минимум на 50%. Все атрибуты меняются ежедневно, поскольку в основном это метрики. Поэтому создание таблицы измерений или фактов из нее практически невозможно. Создать из нее монолитную таблицу также сложно, так как часто мы выполняем обратную засыпку (2 года обратной засыпки) для вновь добавленных атрибутов. Может кто-нибудь подсказать мне, как мы можем решить эту проблему? Что касается любой новой рекомендации БД, у нее должен быть интерфейс SQL, поскольку наши пользователи хотели бы запрашивать только с использованием sql.

...