Как эффективно копировать файлы из HDFS в S3 программно - PullRequest
8 голосов
/ 14 сентября 2010

Моя задание hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3.

Может ли кто-нибудь указать мне на любой API Java, который его обрабатывает.

Спасибо

1 Ответ

9 голосов
/ 16 сентября 2010

"Поддержка файловой системы блока S3 была добавлена ​​в инструмент $ {HADOOP_HOME} / bin / hadoop distcp в Hadoop 0.11.0 (см. HADOOP-862). Инструмент distcp настраивает задание MapReduce для запуска копирования. Использованиеdistcp, кластер из многих членов может быстро скопировать много данных. Количество задач карты рассчитывается путем подсчета количества файлов в источнике: т.е. каждая задача карты отвечает за копирование одного файла. Источник и цель могут относиться к разнымтипы файловых систем. Например, источник может ссылаться на локальную файловую систему или hdfs с S3 в качестве целевого объекта. "

Здесь вы можете получить информацию о текущих массовых копиях в и из S3 http://wiki.apache.org/hadoop/AmazonS3

...