Возможно ли, чтобы Apache Beam сохранил сводку данных, например набросок Count Min, для входящего потока? - PullRequest
0 голосов
/ 13 мая 2019

Я пытаюсь построить конвейер Beam, поддерживающий набросок Count Min для потока Kafka с несколькими разделами. Моя цель - равномерно распределить базовые структуры данных эскиза (массива) CM среди всех доступных работников. Мне было интересно, есть ли способ для Beam всегда посылать одни и те же ключи одному и тому же рабочему, чтобы я мог использовать локальный эскиз CM для этого подмножества ключей и просто объединить локальные эскизы в более крупный. Я читал об API состояния Beam, но, к сожалению, он разбит на части по ключу и окну. Можете ли вы предложить способ отправки подмножества ключей всегда одному и тому же работнику или способ, которым Beam может поддерживать постоянное состояние набора массивов?

...