Я ищу помощь в выборе системы базы данных. (Я гуглял и читал последние несколько часов; теперь, кажется, стоит обратиться за помощью к кому-то, обладающему непосредственными знаниями.)
Мне нужно регистрировать около 200 миллионов строк (или более) за 8-часовой рабочий день в базе данных, а затем выполнять еженедельные / ежемесячные / годовые сводные запросы по этим данным. Сводные запросы были бы для сбора данных для таких вещей, как выписки счетов, например. «Сколько транзакций типа А провел каждый пользователь в этом месяце?» (может быть более сложным, но это общая идея).
При необходимости я могу распределить базу данных по нескольким машинам, но я не думаю, что могу перевести старые данные в автономный режим. Я определенно должен быть в состоянии запросить данные за месяц, может быть, за год. Эти запросы будут предназначены для моего собственного использования, и их не нужно будет генерировать в режиме реального времени для конечного пользователя (при необходимости они могут выполняться в одночасье).
Есть ли у кого-нибудь предложения относительно того, какие базы данных лучше всего подойдут?
P.S. Кассандра, похоже, не будет иметь проблем с обработкой записей, но как насчет огромных ежемесячных сканирований таблицы? Кто-нибудь знаком с производительностью Cassandra / Hadoop MapReduce?