Как использовать Elastic MapReduce для запуска XSLT-преобразования для миллионов небольших файлов S3 xml? - PullRequest
3 голосов
/ 11 августа 2010

Точнее, есть ли несколько простое потоковое решение?

1 Ответ

2 голосов
/ 11 августа 2010

См. Эту ссылку: Как обрабатывать файлы, по одному на карту?

  • Загрузить данные в корзину S3
  • Создать файл, содержащийполный s3n: // путь к каждому файлу
  • Написать сценарий сопоставления, который:
    • Извлекает 'mapred_work_output_dir' из среды (*)
    • Выполняет XSLT-преобразование на основеимя файла, сохраняемое в выходной каталог
  • Пишем идентификационный редуктор, который ничего не делает
  • Загрузите ваши скрипты маппера / редуктора в корзину S3
  • Протестируйте свой сценарий через консоль AWS EMR

(*) Потоковая передача помещает ваш jobconf в среду процессов.Смотрите код здесь .

...