База данных на основе строк или База данных на основе столбцов - PullRequest
0 голосов
/ 05 мая 2019

Мы работаем над системой аудита, в которой аудитору предоставляется доступ к транзакциям, обработанным в последнем квартале. Аудитор выполняет различный анализ данных, чтобы обнаружить недействительные / ошибочные транзакции, которые имеют некоторые исключения.

Как правило, этот анализ требует наличия данных на некоторых диаграммах для просмотра внешних слоев, или иногда обнаружение дублирования выполняется на основе нескольких столбцов. Иногда используются алгоритмы обнаружения исключений, которые требуют нескольких этапов обработки с использованием хранимой процедуры. Обратите внимание, что анализ редко включает агрегацию в огромных строках.

Иногда они могут изменить некоторые данные, если обнаружат, что они отсутствуют или неверны. Мы оцениваем строки (базы данных sql & nosql) и хранилище столбцов (например, системы хранилищ данных).

Это пример использования хранилища данных или хранилища на основе строк, например, nosql или какой-либо СУБД?

Короче говоря, требования: - Случайное обновление - Чаще всего читайте запросы за последние 3 месяца. - Чтение данных может потребовать нескольких шагов обмена сообщениями, таких как создание временной таблицы на шаге 1, формирование соединения с другой таблицей в правиле шага, удаление некоторых строк и т. Д.

Спасибо

1 Ответ

1 голос
/ 07 мая 2019

Для вашей задачи не имеет значения, как хранятся данные.Вместо этого вам нужно подумать, как создать твердотельную модель, правильно заполнить ее данными и какие инструменты отчетности использовать.

В качестве примера приведем несколько общих настроек, которые я использовал в своих проектах:

Настройка стека Microsoft:

  • SQL Server для данныххранилище
  • SSIS для данных ETL (или написать свои собственные хранимые процедуры, если вы знаете, что делаете)
  • Опубликовать модель измерений на том же SQL Server.Если ваш набор данных большой (более миллиарда записей), используйте вместо этого Табличный SSAS
  • Power Pivot или Power BI для интерактивных отчетов или SSRS для разбитых на страницы отчетов.

Настройка с открытым исходным кодом:

  • PostgreSQL для хранения данных
  • Использование хранимых процедур и / или Python для обработки данных
  • Публикация размерной модели в другой базе данных PostgreSQL.Если ваши данные большие, опубликуйте размерную модель в Redshift или другой столбчатой ​​базе данных
  • Используйте Tableau или Power BI для интерактивных отчетов или создайте собственный интерфейс отчетности.

Я думаю, NoSQLВыбор базы данных здесь неправильный, потому что для аудита потребуются структурированные данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...