Как рассчитывать и группировать данные на основе последовательного вхождения в pyspark с использованием структурированной потоковой передачи - PullRequest
0 голосов
/ 05 мая 2019

Я получаю непрерывный поток данных о температуре от Кафки.Я классифицирую данные на основе температурных диапазонов, как показано ниже.

Timestamp         alertType
5/1/2019 10:01:10   MEDIUM
5/1/2019 10:01:11   MEDIUM
5/1/2019 10:01:12   MEDIUM
5/1/2019 10:01:13   MEDIUM
5/1/2019 10:01:14   MEDIUM
5/1/2019 10:01:15   NORMAL
5/1/2019 10:01:16   HIGH
5/1/2019 10:01:17   HIGH
5/1/2019 10:01:18   HIGH
5/1/2019 10:01:19   MEDIUM

Как получить вывод, используя pyspark, используя оконную функцию с некоторым интервалом скольжения (1 секунда).Если количество последовательных отсчетов выше порогового значения, тогда я хочу вызвать предупреждение.

Timestamp         alertType Count
5/1/2019 10:01:14   MEDIUM  5
5/1/2019 10:01:15   NORMAL  1
5/1/2019 10:01:18   HIGH    3
5/1/2019 10:01:19   MEDIUM  1

Есть ли альтернативный способ реализации функции 'lag' с помощью структурированной потоковой передачи?

...