Запросы бизнес-анализа часто включают вычисления агрегирования для метрик, таких как общие суммы продаж и средняя скидка, которую вы проиллюстрировали.
Структуры данных OLAP полезны для этих случаев использования, поскольку агрегации можно предварительно вычислять и сохранятьтем самым требуя меньше вычислений и операций ввода-вывода во время запроса и ускоряя шаблоны запросов, используемые в этих случаях использования.
Подход OLAP получил импульс (также), поскольку типичная реляционная база данных была менее производительной в этих сценариях иOLAP оказалась эффективной оптимизацией.
Подход с использованием столбчатых баз данных (в базах данных, ориентированных на аналитику) также предназначен для оптимизации этих сценариев использования, в основном за счет структурирования и хранения данных таким образом, что только выбранные столбцы, такие какэтикетки и меры для агрегации, должны быть прочитаны из хранилища.Это требует меньшего количества операций ввода-вывода и является одной из основных причин, по которым столбчатые форматы обеспечивают высокую производительность для этих случаев использования (другие - это сложное разбиение, параллельная обработка, сжатие и метаданные, как в Apache Parquet ).
Итак, что касается вашего вопроса, я бы сказал, что вам следует беспокоиться о предварительных вычислениях агрегации в столбчатой базе данных, если вы испытываете низкую производительность в сценариях специальных запросов и не можете решить ее более быстрыми способами (такими как кэширование,правильное разбиение и сжатие).Но это также зависит от того, какую базу данных / saas / формат файла вы используете.
Что касается многомерного моделирования, это другая проблема.Если вы используете столбчатый формат файла, такой как Parquet, на самом деле может быть желательно (в зависимости от пользователя и варианта использования) использовать что-то вроде Hive для создания (мета) размерной модели над файлами, чтобы, например, выможет предоставлять пользователям таблицы таблиц и интерфейс SQL вместо набора файлов.
Что касается PowerBI, то, как и в большинстве инструментов отчетности, вы можете использовать его в режиме Direct Query, если пользователи действительно будут работать с наборами данных более 10 ГБ..
PS: в столбцовой базе данных этот конкретный фрагмент SQL не будет "сканировать всю таблицу", он будет сканировать только выбранные вами столбцы;это часть оптимизации столбчатой конструкции.