Переместить данные из HDFS в Amazon S3 - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть требование, когда я хочу переместить файл из HDFS, который не был изменен за последние 10 дней, в Amazon S3.

Почему мы не пишем напрямую в Amazon S3, потому что S3 неУ нас нет операции добавления, и мы хотим продолжать добавлять файл до тех пор, пока у нас не появятся данные, связанные с этим файлом.

Почему мы хотим переместить данные в HDFS из S3, мы собираемся создать около 1,2 миллиарда файловчерез 2 месяца, и HDFS не может справиться с этим масштабом, NameNode является узким местом.

Итак, вопрос в том, есть ли какой-либо API в HDFS, который дает мне имя файла или имя каталога, которое изменилось 10 дней назад?

...