Непонятно, как Links.txt.gz
относится к вашим .zip
файлам деталей ...
Hadoop не совсем понимает формат ZIP (особенно разделенные), и gzip -d
не будет работать на .zip
файлов в любом случае.
Zip, ни gzip разделяются при обработке Hadoop (читается «можно вычислять параллельно»), поэтому, поскольку WinZip поддерживает формат BZ2, я предлагаю вам перейти на это, и я неВ Windows нет необходимости создавать разделенные файлы, если только он не загружает файл быстрее ...
Sidenote: hadoop fs -cat /input | <anything> | hadoop fs -put - /output
не разделяется "в Hadoop" ... Вы копируете необработанный текст файлав локальный буфер, затем выполняете операцию локально, а затем, возможно, возвращаете ее обратно в HDFS.