В чем разница между DStream и Seq [RDD]? - PullRequest
0 голосов
/ 03 марта 2019

Определение DStream из состояний документации,

Дискретизированный поток или DStream - это базовая абстракция, предоставляемая Spark Streaming.Он представляет собой непрерывный поток данных, либо поток входных данных, полученных из источника, либо поток обработанных данных, сгенерированный путем преобразования входного потока.Внутренне DStream представлен непрерывным рядом RDD, который является абстракцией Spark неизменяемого распределенного набора данных.

Вопрос в том, представлен ли он как серия RDD, можем ли мы сделать Stream изСДР и ожидаешь, что он будет работать аналогично DStream?

Было бы здорово, если бы кто-нибудь мог помочь мне понять это с помощью примера кода.

1 Ответ

0 голосов
/ 04 марта 2019

Вопрос в том, представлен ли он как серия RDD, можем ли мы создать Stream RDD и ожидать, что он будет работать аналогично DStream?

Вы правы.DStream логически представляет собой серию RDD с.

Spark Streaming просто скрывает процесс создания Seq[RDD], поэтому это не ваша работа, а фреймворк.

Более тогоSpark Streaming предоставляет гораздо более приятный API для разработчиков, поэтому вы можете думать о Seq[RDD] как о DStream, но вместо rdds.map(rdd => your code goes here) вы можете просто dstream.map(t => your code goes here), который ничем не отличается, за исключением типов rdd и t.Вы просто на один уровень ниже уже при работе с DStream.

...