Почему Spark Structured Streaming идеально подходит для операций в реальном времени? - PullRequest
0 голосов
/ 27 апреля 2020

Я хочу создать приложение в режиме реального времени, но я не знаю, стоит ли мне использовать Spark Streaming или Spark Structured Streaming.

Я читал в Интернете, что структурированный поток идеально подходит для приложений реального времени, но не понятно почему ...

Может кто-нибудь это объяснить?

1 Ответ

0 голосов
/ 27 апреля 2020

Spark Streaming работает на том, что мы называем микропартией. ... Каждая партия представляет собой СДР. Структурированная потоковая передача работает по той же архитектуре опроса данных после некоторой продолжительности, основанной на вашем интервале триггера, но она имеет некоторое отличие от потоковой передачи Spark, что делает ее более склонной к реальной потоковой передаче.

Для разработчиков все, что им нужно беспокоиться, это то, что Spark Streaming будет вам RDD, но в Spark Structured Streaming вы получите Dataframes и DataSet.
Если вам нужны операции очень низкого уровня (т.е. для каждой записи) go для RDD (т.е. Spark Streaming), но ваше приложение может основываться на Dataframes и запрашивать их как SQL в режиме реального времени, а затем go для DataFrames (т. Е. Spark Structured Streaming)

В конечном итоге СДР могут быть преобразованы в Dataframes и наоборот

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...