Как разархивировать сплит zip файл в Hadoop - PullRequest
0 голосов
/ 16 ноября 2018

У меня есть раздельный zip-файл (созданный winzip в окне ), затем ftp на сервер hadoop.Каким-то образом я не могу разархивировать его с помощью команды, приведенной ниже1013 *

cat: Unable to write to output stream

Я ожидаю, что распакую эти разделенные файлы в определенную папку Hadoop

1 Ответ

0 голосов
/ 16 ноября 2018

Непонятно, как Links.txt.gz относится к вашим .zip файлам деталей ...

Hadoop не совсем понимает формат ZIP (особенно разделенные), и gzip -d не будет работать на .zip файлов в любом случае.

Zip, ни gzip разделяются при обработке Hadoop (читается «можно вычислять параллельно»), поэтому, поскольку WinZip поддерживает формат BZ2, я предлагаю вам перейти на это, и я неВ Windows нет необходимости создавать разделенные файлы, если только он не загружает файл быстрее ...

Sidenote: hadoop fs -cat /input | <anything> | hadoop fs -put - /output не разделяется "в Hadoop" ... Вы копируете необработанный текст файлав локальный буфер, затем выполняете операцию локально, а затем, возможно, возвращаете ее обратно в HDFS.

...