Hadoop загружать файлы с локального компьютера на Amazon S3 - PullRequest
2 голосов
/ 06 декабря 2010

Я работаю над приложением Java MapReduce, которое должно иметь возможность предоставлять услугу загрузки некоторых изображений с локального компьютера пользователя в корзину S3.

Дело в том, что приложение должно работать накластер EC2, поэтому я не уверен, как я могу ссылаться на локальный компьютер при копировании файлов.Метод copyFromLocalFile (..) нуждается в пути от локальной машины, которая будет кластером EC2 ...

Я не уверен, правильно ли я сформулировал проблему, может кто-нибудь понять, что я имею в виду?*

Спасибо

Ответы [ 2 ]

1 голос
/ 15 марта 2012

Вы также можете исследовать s3distcp: http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.html

Apache DistCp - это инструмент с открытым исходным кодом, который можно использовать для копирования больших объемов данных. DistCp использует MapReduce для распределенного копирования, разделяя задачи копирования, обработки ошибок, восстановления и создания отчетов на нескольких серверах. S3DistCp - это расширение DistCp, оптимизированное для работы с веб-сервисами Amazon, в частности Amazon Simple Storage Service (Amazon S3). Используя S3DistCp, вы можете эффективно копировать большие объемы данных из Amazon S3 в HDFS, где они могут обрабатываться потоком заданий Amazon Elastic MapReduce (Amazon EMR). Вы также можете использовать S3DistCp для копирования данных между корзинами Amazon S3 или из HDFS в Amazon S3.

0 голосов
/ 02 февраля 2011

Вам потребуется передать файлы из userMachine как минимум на 1 узел, прежде чем вы сможете использовать их через MapReduce.

Функции FileSystem и FileUtil ссылаются на пути либо наHDFS или локальный диск одного из узлов в кластере.Он не может ссылаться на локальную систему пользователя.(Может быть, если вы сделали некоторые настройки SSH ... может быть?)

...