Как отследить задержку данных ч / б EventHub и Blob в Spark Streaming - PullRequest
0 голосов
/ 06 ноября 2019

Я работаю над Spark Streaming, в основном считывая данные из EventHub, близкие к реальному времени, и сбрасывая их в местоположение BLOB-объекта. Мне потребуется внедрить водяные знаки, чтобы увидеть, что такое задержка (задержка данных) ч / б EventHub и BLOB-объектов. место нахождения. Поскольку мы знаем, что EventHub хранит только 2 дня данных, мне нужно убедиться, что нет потери данных в ч / б EventHub и в расположении BLOB-объектов. Есть ли способ, которым я могу достичь этого в структурированной потоковой передаче Spark.

1 Ответ

0 голосов
/ 08 ноября 2019

Я думаю, что вы пытаетесь достичь двух вещей здесь

1. Определите временную задержку.

2. Найдите потерю данных.

Я предлагаю по крайней мере рассмотреть возможность использования потоковой аналитики Azure для этого. Его язык запросов очень похож на SQL.

...