Как распаковать папку в HDFS? - PullRequest
0 голосов
/ 27 февраля 2020

Так же, как Unix команда tar -czf xxx.tgz xxx/, есть ли способ сделать то же самое в HDFS? У меня есть папка в HDFS, содержащая более 100 тыс. Небольших файлов, и я хочу как можно быстрее загрузить ее в локальную файловую систему. hadoop fs -get слишком медленно, я знаю, hadoop archive может выдать har, но, похоже, не может решить мою проблему.

1 Ответ

0 голосов
/ 27 февраля 2020

Из того, что я вижу здесь,

https://issues.apache.org/jira/browse/HADOOP-7519

невозможно выполнить операцию tar, используя команды oop. Это было внесено в качестве улучшения, как я уже упоминал выше, и еще не решено / недоступно для использования.

Надеюсь, что это ответ на ваш вопрос.

Что касается вашего сценария - наличие 100 КБ небольших файлов в HDFS не является хорошей практикой. Вы можете найти способ объединить их все (возможно, создав таблицы из Hive или Impala из этих данных) или переместить все маленькие файлы в одну папку в HDFS и использовать hadoop fs -copyToLocal <HDFS_FOLDER_PATH>;, чтобы получить всю папку в вашем локальном каталоге вместе с все файлы в нем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...