Очередь и карта / уменьшить - PullRequest
1 голос
/ 11 января 2012

Я видел задания по очереди больших данных, которые выполняются в реальном времени, потому что они производят данные, которые легко потребляются.Задания Map / Reduce (hadoop) производительны по другой причине: они не работают и допускают массивное параллельное объединение и объединение данных.

Тем не менее, мне интересно - способны ли какие-либо системы для приема больших данных реализовать параллелизм в стиле карты / сокращения в сочетании с потоками данных в реальном времени?среднее (в hadoop), позволяющее читать, записывать и объединять «частичные» выходные файлы, которые еще не были завершены.

1 Ответ

1 голос
/ 11 января 2012

Проверьте HStreaming , какая парадигма пользователя MR.Я ими не пользовался, поэтому не знаю плюсов и минусов.

Общая база кода и инструменты для обработки в реальном времени и пакетной обработки.

HStreaming позволяет использоватьте же алгоритмы и функции MapReduce и Apache Pig для обработки в реальном времени или пакетной обработки.Существующий код, такой как пользовательские функции (UDF), может быть перенесен в потоковую обработку без каких-либо минимальных изменений в бизнес-требованиях или с минимальными изменениями.

Если не MR, то есть S4 , Storm (называемый Hadoop обработки в реальном времени), StreamBase , HPCC и другие опции для обработки в реальном времени.

...