Как архивировать данные, хранящиеся в файлах HDFS, на другом (нераспределенном) сервере? - PullRequest
0 голосов
/ 07 октября 2019

У меня есть папка проекта, содержащая ок. 50 ГБ файлов паркета в кластере hadoop ( CDH 5.14 ), которые мне необходимы для архивирования и перемещения to другой хост ( нераспределенный с Windows или Linux). Это всего лишь разовое задание - я не планирую в ближайшее время возвращать данные в HDFS, однако должен быть способ развернуть их обратно в распределенной файловой системе,Каков был бы оптимальный способ сделать это? К сожалению, у меня нет другого кластера hadoop или облачной среды, где я мог бы разместить эти данные. Буду признателен за любые подсказки.

1 Ответ

1 голос
/ 07 октября 2019

Оптимальное решение может зависеть от фактических данных (например, таблиц, много / мало плоских файлов). Если вы знаете, как они туда попали, рассмотрение обратного может быть логичным первым шагом.

Например, если вы просто используете put для размещения файлов, рассмотрите возможность использования get.

Если вы используете Nifi, чтобы получить его, попробуйте Nifi, чтобы получить его.

После того, как данные появятся на вашем компьютере с Linux, вы можете использовать SCP или что-то вроде FTP или подключенный диск для перемещения на нужный компьютер.

...