У нас есть большое количество сжатых файлов, хранящихся в корзине GCS. Я пытаюсь распаковать их, используя утилиту . Данные находятся в иерархии каталогов временных меток; YEAR/MONTH/DAY/HOUR/files.txt.gz
. Поток данных принимает шаблоны ввода подстановочных знаков; inputFilePattern=gs://source-data/raw/nginx/2019/01/01/*/*.txt.gz
. Однако структура каталогов на выходе выравнивается. Все файлы распаковываются в один каталог. Можно ли поддерживать иерархию каталогов с помощью массового декомпрессора? Есть ли другое возможное решение?
gcloud dataflow jobs run gregstest \
--gcs-location gs://dataflow-templates/latest/Bulk_Decompress_GCS_Files \
--service-account-email greg@gmeow.com \
--project shopify-data-kernel \
--parameters \
inputFilePattern=gs://source-data/raw/nginx/2019/01/01/*/*.txt.gz,\
outputDirectory=gs://uncompressed-data/uncompressed,\
outputFailureFile=gs://uncompressed-data/failed