У меня есть большая коллекция данных, хранящихся в хранилище Google, со следующей структурой: gs://project_garden/plant_logs/2019/01/01/humidity/plant001/hour.gz
.Я хочу создать задание Kubernetes, которое загружает все, анализирует и параллельно загружает проанализированные файлы в BigQuery.До сих пор мне удавалось сделать это локально без какого-либо параллелизма, написав код на языке Python, который принимает интервал даты в качестве входных данных и проходит по каждой из установок, выполняя gsutil -m cp -r
для загрузки, gunzip
для извлечения и панды для преобразования.Я хочу сделать то же самое, но параллельно для каждого растения, использующего Kubernetes.Можно ли распараллелить процесс, определив задание, которое передает разные идентификаторы завода для каждого модуля и загружает файлы для каждого из них?