В моем текущем сценарии;Нифи собирает данные, затем отправляет в Кафку.Тогда любой потоковый движок потребляет данные из кафки и анализирует их.В этой ситуации; Я не хочу использовать Кафку между Nifi и Streaming Engine .Итак, я хочу отправить данные из Nifi в потоковый движок напрямую.Но я не знаю некоторых деталей здесь.
Например, Spark Structured Streaming ;Предположим, что я отправляю данные из Nifi в Spark Structured Streaming напрямую, Spark получил эти данные, но затем узел spark не работает.Что происходит с данными в узле Spark?(Есть ли у Spark Structured Streaming какой-либо приемник Nifi?) Кроме того, какова в этом случае гарантия данных для Spark Structured Streaming?
Например, Storm ;У Шторма есть Нифи Болт.Но предположим, что Storm получил данные от Nifi, но затем узел был недоступен.Что происходит с данными?Кроме того, что в данном случае является гарантией данных в Storm?
В скором времени я хочу отправить данные из Nifi в SparkStructuredStreaming / Storm (я, скорее всего, использовал Spark.) Напрямую.Но если какой-либо узел не работает в кластере потокового движка, Я не хочу терять данные.
Возможно ли это для структурированной потоковой передачи Spark?