Возможно ли управление окнами по времени события с помощью Spark Streaming? - PullRequest
0 голосов
/ 07 октября 2019

Согласно документу «Модель потока данных»: практический подход к балансу между корректностью, задержкой и стоимостью в крупномасштабной, неограниченной, неупорядоченной обработке данных:

MillWheel и Spark Streaming обадостаточно масштабируемый, отказоустойчивый и с малой задержкой, чтобы выступать в качестве разумных субстратов, но не хватает высокоуровневых программных моделей, которые упрощают расчет сеансов времени-события.

Всегда ли это так?

1 Ответ

1 голос
/ 07 октября 2019

Нет, это не так.

Цитата из https://dzone.com/articles/spark-streaming-vs-structured-streaming, чтобы сэкономить мое время на обед !:

Одна большая проблема в мире потоковой передачикак обрабатывать данные в соответствии с временем события.

Событие - это время, когда событие действительно произошло. Для источника потокового движка нет необходимости проверять данные в режиме реального времени. Возможны задержки при генерации и передаче данных в механизм обработки. В Spark Streaming такой опции нет, чтобы работать с данными, используя время события. Он работает только с отметкой времени, когда данные получены Spark. На основе отметки времени приема Spark Streaming помещает данные в пакет, даже если событие было сгенерировано раньше и относится к более раннему пакету, что может привести к получению менее точной информации, так как она равна потере данных.

С другой стороны, структурированная потоковая передача предоставляет функциональные возможности для обработки данных на основе времени события, когда временная метка события включена в полученные данные. Это основная функция, представленная в структурированной потоковой передаче, которая предоставляет другой способ обработки данных в зависимости от времени их создания в реальном мире. Благодаря этому мы можем обрабатывать данные, поступающие с опозданием, и получать более точные результаты.

С обработкой поздних данных во время события структурированный поток перевешивает Spark Streaming.

...