zack 11 августа 2010 10

Как использовать Elastic MapReduce для запуска XSLT-преобразования для миллионов небольших файлов S3 xml?

1 Ответ

Ryan Cox / 11 августа 2010

См. Эту ссылку: Как обрабатывать файлы, по одному на карту?

Загрузить данные в корзину S3
Создать файл, содержащийполный s3n: // путь к каждому файлу
Написать сценарий сопоставления, который:
- Извлекает 'mapred_work_output_dir' из среды (*)
- Выполняет XSLT-преобразование на основеимя файла, сохраняемое в выходной каталог
Пишем идентификационный редуктор, который ничего не делает
Загрузите ваши скрипты маппера / редуктора в корзину S3
Протестируйте свой сценарий через консоль AWS EMR

(*) Потоковая передача помещает ваш jobconf в среду процессов.Смотрите код здесь .

...