Распределение и загрузка Amazon MapReduce - PullRequest
1 голос
/ 07 декабря 2011

Я новичок в EMR, и у меня было несколько вопросов, с которыми я боролся последние несколько дней.Первый из них - это журналы, которые я хочу обработать, уже сжаты как .gz, и мне было интересно, могут ли эти типы файлов быть разделены emr так, чтобы над файлом работал более одного маппера.Кроме того, я читал, что входные файлы не будут разделены, если они не 5 ГБ, мои файлы не так велики, значит ли это, что они будут обрабатываться только одним экземпляром?

Мой другой вопрос может показаться довольно глупым, но возможно ли использовать потоковую передачу emr + и иметь ввод в другом месте, отличном от s3?Кажется излишним загружать журналы из CDN, а затем загружать их в мое хранилище s3 для запуска на них mapreduce.Прямо сейчас я загружаю их на мой сервер, затем мой сервер загружает их на s3, есть ли способ вырезать посредника и заставить его перейти прямо на s3 или запустить входы с моего сервера?

1 Ответ

3 голосов
/ 30 декабря 2011

уже сжаты как .gz, и мне было интересно, могут ли эти типы файлов быть разделены emr так, чтобы более чем один маппер работал с файлом

Увы,нет, прямые файлы gzip не разделяются.Один из вариантов - просто чаще просматривать файлы журналов;это очень простое решение работает для некоторых людей, хотя оно немного неуклюжеэто определенно не тот случай.Если файл разделяемый, у вас есть много вариантов того, как вы хотите его разделить, например, настройка mapred.max.split.size .Я нашел [1] хорошее описание доступных опций.

можно ли использовать потоковую передачу emr + и иметь входные данные где-то, кроме s3?

Да.Elastic MapReduce теперь поддерживает VPC, поэтому вы можете напрямую подключиться к CDN [2]

[1] http://www.scribd.com/doc/23046928/Hadoop-Performance-Tuning

[2] http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EnvironmentConfig_VPC.html?r=146

...