Я видел задания по очереди больших данных, которые выполняются в реальном времени, потому что они производят данные, которые легко потребляются.Задания Map / Reduce (hadoop) производительны по другой причине: они не работают и допускают массивное параллельное объединение и объединение данных.
Тем не менее, мне интересно - способны ли какие-либо системы для приема больших данных реализовать параллелизм в стиле карты / сокращения в сочетании с потоками данных в реальном времени?среднее (в hadoop), позволяющее читать, записывать и объединять «частичные» выходные файлы, которые еще не были завершены.