Постоянство в MapReduce - PullRequest
       6

Постоянство в MapReduce

0 голосов
/ 31 декабря 2010

Допустим, вы разделили свою работу для фазы карты: карта / уменьшить, и отображение выполняется.Теперь каждая единица работы занимает около 1 минуты.Допустим, вам нужно остановить обработку.Как бы вы сохранили состояние карты / сократили ее, чтобы тратить наименьшее количество времени при запуске резервного копирования?

1 Ответ

1 голос
/ 26 февраля 2011

Вам нужно запоминать результаты таким образом, чтобы пропустить большую часть обработки строк, которые вы видели ранее.Если есть ключ-кандидат, который идентифицирует строку, которую вы можете использовать для просмотра в кэше, то извлеките обработанные результаты, которые там хранятся.

Настройка кластера с Memcached или Redis была бы одним из подходов для достижения запоминания,

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...