Question

На этот вопрос нет ни одного "правильного" ответа.

Меня интересует запуск алгоритмов Map Reduce в кластере на терабайтах данных.

Я хочу узнать больше о времени работы указанных алгоритмов.

Какие книги я должен читать?

Меня не интересует настройка кластеров Map Reduce или запуск стандартных алгоритмов. Я хочу строгого теоретического лечения или времени выполнения.

РЕДАКТИРОВАТЬ: Проблема не в том, что карта уменьшает время выполнения изменений. Проблема в том, что большинство алгоритмов плохо распределяются, чтобы отобразить структуры сокращения. Меня интересуют алгоритмы, которые работают на карте и уменьшают рамки.

Amber · Answer 1 · 10 февраля 2010

Технически, нет реального отличия в анализе времени выполнения MapReduce по сравнению со «стандартными» алгоритмами - MapReduce по-прежнему является алгоритмом, как и любой другой (или, в частности, классом алгоритмов, которые происходят в несколько этапов при определенном взаимодействии). между этими шагами).

Время выполнения задания MapReduce по-прежнему будет увеличиваться в зависимости от прогнозируемого нормального алгоритмического анализа, когда вы учитываете распределение задач по нескольким машинам и затем находите максимальное индивидуальное машинное время, необходимое для каждого шага.

То есть, если у вас есть задача, требующая M операций с картой и R сокращения операций, выполняющихся на N машинах, и вы ожидаете, что средняя операция с картой займет m времени, а средняя операция сокращения - r, то вы ' у вас будет ожидаемое время выполнения ceil(M/N)*m + ceil(R/N)*r времени для выполнения всех рассматриваемых задач.

Прогнозирование значений M, R, m и r - это все, что может быть достигнуто с помощью обычного анализа любого алгоритма, который вы подключаете к MapReduce.

Binary Nerd · Answer 2 · 11 февраля 2010

Опубликованы только две известные мне книги, но в работах есть еще:

Pro hadoop и Hadoop: полное руководство

Из них Pro Hadoop - скорее книга для начинающих, хотя «Полное руководство» предназначено для тех, кто знает, что такое Hadoop.

У меня есть «Полное руководство», и я думаю, что это отличная книга. Он содержит хорошие технические подробности о том, как работает HDFS, а также охватывает ряд связанных тем, таких как MapReduce, Pig, Hive, HBase и т. Д. Следует также отметить, что эта книга была написана Томом Уайтом, который был связан с разработка Hadoop уже давно, и теперь она работает на cloudera .

Что касается анализа алгоритмов в Hadoop, вы можете взглянуть на критерии сортировки TeraByte. Yahoo написала, как работает Hadoop для этого конкретного теста: Сортировка TeraByte на Apache Hadoop . Эта статья была написана в 2008 году.

Более подробную информацию о результатах 2009 года можно найти здесь .

Renata · Answer 3 · 10 января 2014

Существует большая книга об алгоритмах Data Mining, примененных к модели MapReduce.

Он был написан двумя профессорами Стэнфорда и, если он доступен бесплатно:

http://infolab.stanford.edu/~ullman/mmds.html

Карта уменьшает алгоритмы на терабайтах данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Карта уменьшает алгоритмы на терабайтах данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов