Ограничение размера шаблона потока данных Google в 10 МБ - PullRequest
1 голос
/ 24 июня 2019

Я настроил шаблон в потоке данных Google, и он работал нормально.После некоторой модификации добавления параллельной обработки на раздел, размер шаблона стал намного больше.Я попытался запустить его, и это не удалось.Я получил сообщение об ошибке вроде следующего:

Template file 'gs://my-bucket/templates/my-template-name' was too large. Max size is 10485760 bytes.

Похоже, у gcp есть ограничение на размер шаблона около 10 МБ.Есть ли способ увеличить лимит или сжать сгенерированный шаблон?Обновление, которое я сделал, в значительной степени создает раздел из коллекции pCollection.Затем каждый pCollection в этом pCollectionList запускает одну и ту же структуру преобразования и записи в файл.Без раздела размер 1,5 мб.раздел до 4 разделов, он вырос до 6 мб.При переходе на 8 разделов он вырос до 12 мб.Не ограничено ли это сложностью конвейера?

Вот описание раздела.Процесс происхождения выглядит следующим образом: String option -> pCollection as input files -> TextIO -> sort -> write

После того, как раздел выглядит как

String option -> pColletion as input files -> parition -> each partition does TextIO -> sort -> write

Разделение в середине - единственное существенное изменение.Почему это привело бы к увеличению размера шаблона в несколько раз?

1 Ответ

2 голосов
/ 25 июня 2019

Это известная проблема для потока данных.Если вы используете Beam SDK> = 2.9, вы можете добавить --experiments=upload_graph к команде, которую вы используете для создания шаблона.Это должно помочь вам создать меньший шаблон.Однако я не уверен, что эта функция полностью доступна для всех пользователей Dataflow, поскольку она только что была реализована.В противном случае может потребоваться несколько недель, чтобы он был полностью доступен.

...