Доступ к S3 напрямую из карты EMR / задача сокращения - PullRequest
1 голос
/ 13 февраля 2012

Я пытаюсь выяснить, как писать напрямую из задачи карты EMR в корзину s3.Я хотел бы запустить потоковое задание Python, которое получало бы некоторые данные из интернета и сохраняло бы их на s3 - без возврата назад, чтобы сократить объем работы.Кто-нибудь может мне помочь с этим?

1 Ответ

0 голосов
/ 10 апреля 2012

Почему бы вам просто не установить вывод вашей работы MR в каталог s3 и сказать, что редуктора нет:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE

Это должно делать то, что вы хотите.

Тогда ваш скрипт может сделать что-то вроде этого (извините, ruby):

STDIN.each do |url|
  puts extract_data(url)
end
...