Как остановить S3DistCp для повторного сжатия файлов VCF - PullRequest
0 голосов
/ 10 апреля 2019

Я пытаюсь использовать S3DistCp (s3-dist-cp) для копирования нескольких сжатых файлов VCF из s3 в hdf-файлы некоторых кластеров EMR, но я сталкиваюсь со следующей проблемой. Я использую следующую команду для копирования одного файла:

s3-dist-cp --src s3: // some-bucket / some-prefix / --dest hdfs: /// some-bucket / some-prefix / --srcPattern ". * Filename.vcf.gz "

Всякий раз, когда этот файл копируется, очевидно, он сохраняет то же сжатие (в результирующем файле все еще есть ext .gz), но размер файла немного изменился, и мое приложение для чтения больше не распознает его как действительный сжатый файл gz , Если я удаляю сжатие с параметром --outputCodec = none, оно работает нормально, но данные становятся в 15 раз больше.

Как я могу заставить s3-dist-cp просто копировать файлы, а не делать какие-либо повторные сжатия?

...