Интервал выходных данных структурированной потоковой передачи Spark - PullRequest
0 голосов
/ 18 февраля 2019

Я рассматриваю пример StructuredNetworkWordCountWindowed в структурированной потоковой передаче Apache Spark, и у меня возникают проблемы с поиском информации о том, как я могу обновить пример для управления выходными интервалами.Когда я запускаю пример, я получаю вывод каждый раз, когда обрабатывается микропакет.Я понимаю, что это предназначено, потому что основной случай - обработка данных и выдача результатов в режиме реального времени, но как насчет случая, когда я хочу обрабатывать данные в режиме реального времени, но выводить состояние через определенный интервал?Поддерживает ли Spark Structured Streaming этот сценарий?Я рассмотрел руководство по программированию, и единственное упомянутое сходное понятие - это опция Trigger.ProcessingTime.К сожалению, этот параметр не совсем необходим, поскольку он применяется ко времени пакетной обработки, а описанный выше сценарий все еще требует обработки данных в режиме реального времени.

Поддерживается ли эта функция?В частности, как вывести состояние только в тот момент, когда окно заканчивается, при условии, что нет поздних заездов, и с использованием переворачивающегося окна?

...