Вы не указали, на какие вопросы вы пытаетесь ответить своими запросами или как структурированы ваши данные. Прежде чем выбрать какое решение использовать, вам, вероятно, нужно подумать об этих двух вещах.
Вы правы: основные поставщики СУБД предлагают кластерные решения; как для параллельной обработки, так и для высокой доступности. У них уже была эта технология, и, вероятно, ее использует любое предприятие с большим количеством данных. Когда вы покупаете ($$$) продукт, он предоставит вам много документации и поможет вам настроить его (больше $$$), если вы можете себе это позволить.
СУБД хороши для онлайн-транзакций (OLTP); отвечая на вопросы о конкретных рядах (где живет Мария?); ответы на некоторые вопросы типа резюме (сколько мы продали в первом квартале и т. д.) Хотя они могут быть сделаны для выполнения подробных вопросов (сколько мы продали в первом квартале, с разбивкой по продукту, продавцу, месяцу, и регион?), вы обычно начинаете облагать налогом их ограничения (любой запрос, который должен посетить все строки, будет медленным).
Для этих типов запросов большинство предприятий имеют хранилище данных, которое структурирует данные в многомерные «кубы». (См. Cognos, Hyperion, другие). Это может быть подходящим для того, что вы пытаетесь сделать.
У меня нет никакого опыта работы с MapReduce, но я прочитал раздел википедии по Использование , и поэтому, если то, что вы пытаетесь сделать, попадает в эти категории, я продолжу с ним.