Что такое Google Dremel? Чем он отличается от Mapreduce? - PullRequest
28 голосов
/ 07 июля 2011

Google Dremel описан здесь .В чем разница между Dremel и Mapreduce?

Ответы [ 3 ]

40 голосов
/ 27 января 2012

Dremel и MapReduce не являются напрямую сопоставимыми, а скорее дополняют друг друга.

MapReduce специально не предназначен для анализа данных - скорее это программная среда, которая позволяет совокупности узлов решать распределенные вычислительные проблемы для больших наборов данных.

Dremel - это инструмент анализа данных, предназначенный для быстрого выполнения запросов к массивным структурированным наборам данных (таким как файлы журналов или событий). Он поддерживает SQL-подобный синтаксис, но кроме добавления таблиц, он доступен только для чтения. Он не поддерживает обновление или создание функций, а также не поддерживает индексы таблиц. Данные организованы в «столбчатом» формате, что способствует очень быстрой скорости запросов. Продукт Google BigQuery представляет собой реализацию Dremel, доступную через RESTful API.

Hadoop (реализация MapReduce с открытым исходным кодом) в сочетании с программным обеспечением хранилища данных «Hive» также позволяет анализировать массивные наборы данных с использованием синтаксиса в стиле SQL. Hive по сути превращает запросы в функции MapReduce. В отличие от использования формата ColumIO, Hive пытается быстро выполнять запросы, используя такие методы, как индексация таблиц.

22 голосов
/ 07 июля 2011

Отметьте статью .Dremel - это то, каким должно быть (и будет) будущее улья.

Основная проблема MapReduce и решений на его основе, таких как Pig, Hive и т. Д., Заключается в том, что они имеют внутреннюю задержку между выполнением задания и получением ответа.Dremel использует совершенно новый подход (вышедший в 2010 году в этой статье от Google), который ...

... использует новый механизм выполнения запросов, основанный на деревьях агрегатора ...

... для запуска почти в режиме реального времени , интерактивный И adhoc запросов, оба из которых MapReduce не может.И Свинья и Улей не в реальном времени

Вы должны следить за проектами , выходящими из этого.Это тоже довольно ново для меня ... так что любые другие комментарии экспертов приветствуются!

Редактировать: Dremel - это будущее HIVE (а не MapReduce какЯ упоминал ранее) должно быть.Hive прямо сейчас предоставляет SQL-подобный интерфейс для запуска заданий MapReduce.У ульев очень большая задержка, поэтому он не практичен для специального анализа данных.Dremel предоставляет очень быстрый SQL-подобный интерфейс для данных, используя метод, отличный от MapReduce.

4 голосов
/ 07 июля 2011

MapReduce - это абстрактный алгоритм, позволяющий разделить проблему, распределить ее и объединить результаты.Dremel, по-видимому, является специальным инструментом для запросов и анализа наборов данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...