Как определить задержку копирования данных в черно-белом режиме Azure EventHub и HDFS с использованием Spark Streaming - PullRequest
1 голос
/ 11 ноября 2019

В настоящее время я передаю данные почти в реальном времени из Azure EventHub в местоположение BLOB-объекта HDFS с использованием искровой потоковой передачи. Это потоковое задание выполняется 24/7, и я хочу понять, есть ли какие-либо задержки копирования ч / б EventHub и HDFSклякса. Я знаю, что могу легко сделать это в потоковой аналитике, где у меня есть окно водяного знака, которое может сообщить мне, сколько часов / минут происходит задержка данных. Но есть ли способ, которым я могу достичь этого в Spark Streaming, есть ли фрагмент кода, который я мог бы написать, чтобы увидеть, какова задержка данных. Пожалуйста, ведите меня сюда. Надеюсь, мой вопрос понятен.

По сути, я не хочу терять данные, которые доступны в Azure EventHub, но недоступны в BLOB-объекте HDFS, поскольку EventHub хранит данные только 2 дня, если есть задержка данных более чем на 2 дня, то определенноя потеряю данные.

...