Моя задание hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3.
Может ли кто-нибудь указать мне на любой API Java, который его обрабатывает.
Спасибо
"Поддержка файловой системы блока S3 была добавлена в инструмент $ {HADOOP_HOME} / bin / hadoop distcp в Hadoop 0.11.0 (см. HADOOP-862). Инструмент distcp настраивает задание MapReduce для запуска копирования. Использованиеdistcp, кластер из многих членов может быстро скопировать много данных. Количество задач карты рассчитывается путем подсчета количества файлов в источнике: т.е. каждая задача карты отвечает за копирование одного файла. Источник и цель могут относиться к разнымтипы файловых систем. Например, источник может ссылаться на локальную файловую систему или hdfs с S3 в качестве целевого объекта. "
Здесь вы можете получить информацию о текущих массовых копиях в и из S3 http://wiki.apache.org/hadoop/AmazonS3