Map и Reduce с большими наборами данных = как это работает на практике? - PullRequest
2 голосов
/ 11 апреля 2011

я был бы благодарен за совет:

http://en.wikipedia.org/wiki/MapReduce заявляет: «... большая ферма серверов может использовать MapReduce для сортировки петабайта данных всего за несколько часов ...»и "... Главный узел принимает входные данные, разбивает их на более мелкие подзадачи и распределяет их по рабочим узлам ..."

Я полностью НЕ понимаю, как это будет работать на практике.Учитывая, что у меня есть SAN (хранилище) с 1 петабайтом данных.Как я могу эффективно распределять эти данные через «Мастер» к подчиненным?Это то, что я не могу понять.Учитывая, что у меня есть 10-гигабитное соединение от SAN к Мастеру, а от Мастера до подчиненного 1 Гбит, я могу максимально «разложить» 10 Гбит за раз.Как я могу обработать петабайты в течение нескольких часов, так как сначала мне нужно передать данные в «узлы редуктора / рабочего»?

Большое спасибо!Jens

Ответы [ 2 ]

2 голосов
/ 11 апреля 2011

На самом деле, на полномасштабной платформе Map / Reduce, такой как Hadoop , само хранилище данных распределено. Например, Hadoop имеет распределенную систему хранения файлов HDFS, которая обеспечивает как избыточность, так и высокую производительность. Узлы файловой системы могут использоваться в качестве вычислительных узлов или могут быть выделенными узлами хранения в зависимости от того, как была развернута инфраструктура.

Обычно при упоминании времени вычислений в этом случае предполагается, что входные данные уже существуют в распределенном хранилище кластера. Главный узел просто передает вычислительным узлам данные диапазонов для обработки, а не сами данные.

2 голосов
/ 11 апреля 2011

Я полагаю, это потому, что главный узел управляет , а не передачей данных .

Данные хранятся в распределенной файловой системе и доставляются изнесколько узлов одновременно.(Нет причин проходить через главный узел данные.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...