Какова правильная технология базы данных для этого простого изложенного варианта использования инструмента BI? - PullRequest
0 голосов
/ 28 ноября 2018

Обращение к сообществу для проверки нашего внутреннего мышления.

Мы создаем упрощенную платформу бизнес-аналитики, которая будет объединять метрики (например, трафик, обратные ссылки) и текстовый список (например, ключевые слова для поиска, используемые технологии).от нескольких поставщиков данных.

Данные будут несколько слабо структурированы и могут со временем меняться, поскольку поставщики могут изменять свои форматы ответов.

Объем данных может составлять долгосрочные 100 000 строк x 25 входных векторов.

Данные будут обновляться и считываться непрерывно, но не в большом параллельном объеме.

Мы ожидаем, что нам потребуется выполнить некоторые преобразования ETL для собранных данных от партнеров на пути к пользовательскому интерфейсу (например, показать информацию о тренде за последние пять захваченных точек данных).

Мы бы хотели заархивировать каждый моментальный снимок данных (т. е. его версию) по сравнению с сохранением самой последней точки данных.

Технология постоянства должна быть легко доступна через AWS.

Мы предполагаем, что наши требования лучше всего подходят для DynamoDB (против Amazon Neptune, Redshift или Aurora).

Это справедливо предположить?Могу ли я предоставить какие-либо другие вопросы / информацию, чтобы получить информацию от этого сообщества?

1 Ответ

0 голосов
/ 28 ноября 2018

Поскольку вам требуется структура без схемы и версия каждого элемента, DynamoDB - отличный выбор.Вы, вероятно, захотите построить таблицу в виде составной структуры ключа Разделения / Сортировки с ключом Сортировки в качестве Версии, и есть несколько методов, которые вы можете использовать, чтобы помочь вам найти «последнюю» версию и т. Д. Это очень распространенный шаблони с помощью DDB Autoscaling вы можете обеспечить только ту емкость, которая вам действительно нужна.

...