Если вы только начинаете и экспериментируете с EMR, я предполагаю, что вы хотите это на s3, чтобы вам не приходилось запускать интерактивный сеанс Hadoop (вместо этого используйте мастера EMR через консоль AWS).
Лучший способ - запустить микроэкземпляр в том же регионе, что и ваша корзина S3, загрузить на эту машину с помощью wget, а затем использовать что-то вроде s3cmd (что, вероятно, потребуетсяустановить на экземпляр).В Ubuntu:
wget http://example.com/mydataset dataset
sudo apt-get install s3cmd
s3cmd --configure
s3cmd put dataset s3://mybucket/
Причина, по которой вы хотите, чтобы ваш экземпляр и корзина s3 находились в одном регионе, заключается в том, чтобы избежать дополнительных расходов на передачу данных.Несмотря на то, что вы будете платить в ограниченной полосе пропускания экземпляру для wget, переход к S3 будет бесплатным.