Карта уменьшает алгоритмы на терабайтах данных? - PullRequest
4 голосов
/ 10 февраля 2010

На этот вопрос нет ни одного "правильного" ответа.

Меня интересует запуск алгоритмов Map Reduce в кластере на терабайтах данных.

Я хочу узнать больше о времени работы указанных алгоритмов.

Какие книги я должен читать?

Меня не интересует настройка кластеров Map Reduce или запуск стандартных алгоритмов. Я хочу строгого теоретического лечения или времени выполнения.

РЕДАКТИРОВАТЬ: Проблема не в том, что карта уменьшает время выполнения изменений. Проблема в том, что большинство алгоритмов плохо распределяются, чтобы отобразить структуры сокращения. Меня интересуют алгоритмы, которые работают на карте и уменьшают рамки.

Ответы [ 3 ]

4 голосов
/ 10 февраля 2010

Технически, нет реального отличия в анализе времени выполнения MapReduce по сравнению со «стандартными» алгоритмами - MapReduce по-прежнему является алгоритмом, как и любой другой (или, в частности, классом алгоритмов, которые происходят в несколько этапов при определенном взаимодействии). между этими шагами).

Время выполнения задания MapReduce по-прежнему будет увеличиваться в зависимости от прогнозируемого нормального алгоритмического анализа, когда вы учитываете распределение задач по нескольким машинам и затем находите максимальное индивидуальное машинное время, необходимое для каждого шага.

То есть, если у вас есть задача, требующая M операций с картой и R сокращения операций, выполняющихся на N машинах, и вы ожидаете, что средняя операция с картой займет m времени, а средняя операция сокращения - r, то вы ' у вас будет ожидаемое время выполнения ceil(M/N)*m + ceil(R/N)*r времени для выполнения всех рассматриваемых задач.

Прогнозирование значений M, R, m и r - это все, что может быть достигнуто с помощью обычного анализа любого алгоритма, который вы подключаете к MapReduce.

1 голос
/ 11 февраля 2010

Опубликованы только две известные мне книги, но в работах есть еще:

Pro hadoop и Hadoop: полное руководство

Из них Pro Hadoop - скорее книга для начинающих, хотя «Полное руководство» предназначено для тех, кто знает, что такое Hadoop.

У меня есть «Полное руководство», и я думаю, что это отличная книга. Он содержит хорошие технические подробности о том, как работает HDFS, а также охватывает ряд связанных тем, таких как MapReduce, Pig, Hive, HBase и т. Д. Следует также отметить, что эта книга была написана Томом Уайтом, который был связан с разработка Hadoop уже давно, и теперь она работает на cloudera .

Что касается анализа алгоритмов в Hadoop, вы можете взглянуть на критерии сортировки TeraByte. Yahoo написала, как работает Hadoop для этого конкретного теста: Сортировка TeraByte на Apache Hadoop . Эта статья была написана в 2008 году.

Более подробную информацию о результатах 2009 года можно найти здесь .

0 голосов
/ 10 января 2014

Существует большая книга об алгоритмах Data Mining, примененных к модели MapReduce.

Он был написан двумя профессорами Стэнфорда и, если он доступен бесплатно:

http://infolab.stanford.edu/~ullman/mmds.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...