Spark Streaming работает на том, что мы называем микропартией. ... Каждая партия представляет собой СДР. Структурированная потоковая передача работает по той же архитектуре опроса данных после некоторой продолжительности, основанной на вашем интервале триггера, но она имеет некоторое отличие от потоковой передачи Spark, что делает ее более склонной к реальной потоковой передаче.
Для разработчиков все, что им нужно беспокоиться, это то, что Spark Streaming будет вам RDD, но в Spark Structured Streaming вы получите Dataframes и DataSet.
Если вам нужны операции очень низкого уровня (т.е. для каждой записи) go для RDD (т.е. Spark Streaming), но ваше приложение может основываться на Dataframes и запрашивать их как SQL в режиме реального времени, а затем go для DataFrames (т. Е. Spark Structured Streaming)
В конечном итоге СДР могут быть преобразованы в Dataframes и наоборот