Если вы хотите обрабатывать большие объемы данных в режиме реального времени (твиттер, поток кликов с веб-сайта) и т. Д. С использованием кластера машин, то посмотрите «шторм» , который недавно был открыт с помощью твиттера
Стандартный Apache Hadoop хорош для обработки в пакетном режиме с петабайтами данных, где задержка не является проблемой.
Brisk от DataStax, как упомянуто выше, является уникальным в том смысле, что вы можете использовать MapReduce Parallel для обработки живых данных.
Существуют и другие усилия, такие как Hadoop Online , который позволяет обрабатывать с использованием конвейера.
Google BigQuery, очевидно, еще один вариант, где у вас есть csv (записи с разделителями), и вы можете нарезать и нарезать кубиками без какой-либо настройки. Он чрезвычайно прост в использовании, но это сервис премиум-класса, за который вам нужно платить. обработанных байтов (хотя первые 100 ГБ в месяц бесплатны).