Question

Я видел задания по очереди больших данных, которые выполняются в реальном времени, потому что они производят данные, которые легко потребляются.Задания Map / Reduce (hadoop) производительны по другой причине: они не работают и допускают массивное параллельное объединение и объединение данных.

Тем не менее, мне интересно - способны ли какие-либо системы для приема больших данных реализовать параллелизм в стиле карты / сокращения в сочетании с потоками данных в реальном времени?среднее (в hadoop), позволяющее читать, записывать и объединять «частичные» выходные файлы, которые еще не были завершены.

Praveen Sripati · Answer 1 · 11 января 2012

Проверьте HStreaming , какая парадигма пользователя MR.Я ими не пользовался, поэтому не знаю плюсов и минусов.

Общая база кода и инструменты для обработки в реальном времени и пакетной обработки.

HStreaming позволяет использоватьте же алгоритмы и функции MapReduce и Apache Pig для обработки в реальном времени или пакетной обработки.Существующий код, такой как пользовательские функции (UDF), может быть перенесен в потоковую обработку без каких-либо минимальных изменений в бизнес-требованиях или с минимальными изменениями.

Если не MR, то есть S4 , Storm (называемый Hadoop обработки в реальном времени), StreamBase , HPCC и другие опции для обработки в реальном времени.

Очередь и карта / уменьшить

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Очередь и карта / уменьшить

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы