Я настроил шаблон в потоке данных Google, и он работал нормально.После некоторой модификации добавления параллельной обработки на раздел, размер шаблона стал намного больше.Я попытался запустить его, и это не удалось.Я получил сообщение об ошибке вроде следующего:
Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.
Похоже, у gcp есть ограничение на размер шаблона около 10 МБ.Есть ли способ увеличить лимит или сжать сгенерированный шаблон?Обновление, которое я сделал, в значительной степени создает раздел из коллекции pCollection.Затем каждый pCollection в этом pCollectionList запускает одну и ту же структуру преобразования и записи в файл.Без раздела размер 1,5 мб.раздел до 4 разделов, он вырос до 6 мб.При переходе на 8 разделов он вырос до 12 мб.Не ограничено ли это сложностью конвейера?
Вот описание раздела.Процесс происхождения выглядит следующим образом: String option -> pCollection as input files -> TextIO -> sort -> write
После того, как раздел выглядит как
String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write
Разделение в середине - единственное существенное изменение.Почему это привело бы к увеличению размера шаблона в несколько раз?