Spark Streaming против структурированных потоков - PullRequest
1 голос
/ 05 апреля 2020

В последние месяцы я использовал довольно много структурированного потокового вещания для реализации потоковых заданий (после частого использования Kafka). После прочтения книги Stream Processing with Apache Spark у меня возник вопрос: есть ли смысл или случаи использования, где я бы использовал Spark Streaming вместо структурированного Streaming? Должен ли я потратить некоторое время на то, чтобы начать работать с ним, или, поскольку я уже использую структурированную потоковую передачу Spark, я должен придерживаться этого, и никакой пользы от предыдущего API нет. Буду признателен за любое мнение / понимание

1 Ответ

0 голосов
/ 06 апреля 2020

Привет, делюсь своим личным опытом.

Структурированная потоковая передача - будущее для реализации потоковой передачи на основе искры. Это обеспечивает более высокий уровень абстракции и другие замечательные функции. Однако есть несколько ограничений.

Мне пришлось переключаться на потоковое зажигание несколько раз из-за предлагаемой им гибкости. Одним из недавних примеров является то, что нам приходилось выполнять объединения со стандартными справочными данными c, однако внешние соединения не поддерживаются в структурированной потоковой передаче. Это может быть достигнуто с помощью потоковой передачи Spark.

С новой версией Spark 2.4 улучшено структурированное потоковое вещание с поддержкой приемника foreachBatch, который обеспечивает аналогичную гибкость, предлагаемую потоковым искром.

Моя личная мысль о том, что знание потоковой искры полезно, и вам, возможно, придется использовать ее в зависимости от вашего варианта использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...