Есть ли способ создать вторичное хранилище или резервную копию для блоков данных в Hadoop? - PullRequest
0 голосов
/ 16 марта 2012

У меня Hadoop работает в кластере, который имеет невыделенные узлы (то есть он разделяет узлы с другими приложениями / пользователями).Когда другие пользователи используют узел кластера, ему не разрешено запускать задания Hadoop на этом узле.Таким образом, возможно, что в данный момент доступно только несколько узлов, и что эти несколько узлов не имеют всех блоков данных (реплик), необходимых для работы Hadoop.

У меня также есть большое сетевое хранилище, которое используется для резервного копирования.Итак, мне интересно, есть ли способ использовать его в качестве вторичного хранилища для Hadoop.Например, если в кластере отсутствует какой-либо блок данных, Hadoop получит блок из вторичного / резервного хранилища.

Есть идеи?

Заранее спасибо!

1 Ответ

1 голос
/ 16 марта 2012

Мне неизвестно о таком «смешанном» режиме хранения для hadoop.Поэтому я не думаю, что ваш сценарий напрямую поддерживается hadoop.
Для меня, похоже, вам нужно более «упругое» решение.Если EMR будет доступен с открытым исходным кодом - это может быть хорошим выбором - где NAS будет играть роль S3.
Я бы предложил следующее решение в вашем случае:
Установите и запустите узлы данных на всех доступных серверах.Они не так требовательны к ресурсам, как средства отслеживания задач, поскольку они только последовательно читают / записывают данные.
Установите трекеры задач также на всех машинах, но запускайте только на тех, которые сейчас не используются.Hadoop достаточно умен, чтобы сохранить локальность данных, когда это возможно.В то же время Hadoop значительно упрощает изменение количества трекеров задач, чем исчезновение узлов данных.
В качестве альтернативы вы можете создать кластер только трекеров задач, не использовать HDFS и запускать задания на NAS.
Во всех случаях основными помехами для других пользователей, которых я по-прежнему ожидаю, является перегрузка сети - во время этапа случайного воспроизведения hasoop обычно насыщает сеть.

...