Почему мои данные в apache-beam отправляются через несколько минут вместо 10 часов? - PullRequest
1 голос
/ 21 июня 2019

Я хотел иметь глобальное окно, которое длится 10 часов после просмотра первого элемента, но происходящие данные выводятся через несколько минут (или секунд). Почему?

Код:

grouped_tis = tracking_informations | beam.WindowInto(window.GlobalWindows(),
                                                        trigger=AfterProcessingTime(10 * 3600),
                                                        accumulation_mode=AccumulationMode.DISCARDING) | beam.GroupByKey() | beam.ParDo(MergeTI())

В потоке данных Через 30 минут я уже получаю много упавших элементов: droppedDueToClosedWindow 39,147 GroupByKey

1 Ответ

1 голос
/ 27 июня 2019

Это похоже на ошибку в SDK.Я создал jira ticket для разработчиков Apache Beam Python SDK, чтобы разобраться в проблеме.

Кажется, что AfterProcessingTime срабатывает рано и вызывает закрытие окна.Все последующие события корректно отбрасываются из-за закрытия окна.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...