Жизнь распределенного кэша в Hadoop - PullRequest
6 голосов
/ 19 декабря 2010

Когда файлы передаются на узлы с использованием механизма распределенного кэша в потоковом задании Hadoop, удаляет ли система эти файлы после завершения задания? Если они будут удалены, что, я полагаю, так и есть, есть ли способ сохранить кэш для нескольких заданий? Работает ли это так же на Amazon Elastic Mapreduce?

Ответы [ 2 ]

5 голосов
/ 20 декабря 2010

Я копался в исходном коде, и похоже, что файлы удаляются TrackerDistributedCacheManager примерно раз в минуту, когда их счетчик ссылок падает до нуля. TaskRunner явно освобождает все свои файлы в конце задачи. Может быть, вам следует отредактировать TaskRunner, чтобы не делать этого, и самим управлять кешем более явными средствами?

2 голосов
/ 22 декабря 2010

I cross опубликовал этот вопрос на форуме AWS и получил хорошую рекомендацию использовать hadoop fs -get для передачи файлов способом, который сохраняется между заданиями.

...