У меня есть требование, когда я хочу переместить файл из HDFS, который не был изменен за последние 10 дней, в Amazon S3.
Почему мы не пишем напрямую в Amazon S3, потому что S3 неУ нас нет операции добавления, и мы хотим продолжать добавлять файл до тех пор, пока у нас не появятся данные, связанные с этим файлом.
Почему мы хотим переместить данные в HDFS из S3, мы собираемся создать около 1,2 миллиарда файловчерез 2 месяца, и HDFS не может справиться с этим масштабом, NameNode является узким местом.
Итак, вопрос в том, есть ли какой-либо API в HDFS, который дает мне имя файла или имя каталога, которое изменилось 10 дней назад?