Мой конвейер создает большие промежуточные массивы внутри CombineFn
.Когда я бегу с небольшим количеством работников, трубопровод успешен.Когда я увеличиваю количество рабочих, конвейер выходит из строя из-за ошибок OOM на рабочих на этом этапе.Я не совсем уверен, почему это происходит, но я думаю, что поток данных недооценивает объем памяти, необходимый на шаге add_input, и создает слишком много аккумуляторов.
Есть ли какой-нибудь способ, которым я могу дать подсказки конвейеру, говоря что-то вроде каждого аккумулятора требует X МБ памяти?
Я писал об этой проблеме раньше здесь .
Я сейчас использую Apache Beam Python SDK 2.7, но проблема остается.