Можно ли распаковать файл tar.gz в HDFS и поместить его в другую папку HDFS, не перенося его в локальные системы? - PullRequest
0 голосов
/ 11 марта 2020

У меня есть файл employee_mumbai.tar.gz, у меня есть имя. json и зарплата. json. И tar.gz присутствует в расположении HDFS. Можно ли распаковать / распаковать файл gzip и поместить файлы json в папку HFDS, не перенося его в локальную файловую систему. NB: Пожалуйста, помните, что это не текстовый файл, а уникальная информация обо всех файлах json.

Пожалуйста, дайте мне знать, можно ли прочитать оба файла по отдельности в разных фреймах данных непосредственно в Spark.

1 Ответ

0 голосов
/ 11 марта 2020

Это сработало для меня:

hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/ 
...