В чем различия между RDD и традиционной системой реляционных баз данных - PullRequest
0 голосов
/ 07 декабря 2018

Я новичок в освоении, я знаю SQL, но хотел бы знать различия между RDD (Resilient Distributed Datasets) и реляционными базами данных, как на уровне архитектуры и уровне доступа.Спасибо.

1 Ответ

0 голосов
/ 07 декабря 2018

RDD (Resilient Distributed Dataset) - это структура данных в памяти, используемая Spark.Это неизменная структура данных.Думайте об этом как, искра загрузила данные в память в определенной структуре, и эта структура называется RDD.Как только ваша искровая работа прекращается, RDD не существует.

База данных с другой стороны - это системы хранения.Вы можете сохранить свои данные и запросить их позже.

Я надеюсь, что это уточнить.Еще одна вещь - Spark может загружать данные из файловой системы или базы данных и создавать RDD.Файловая система и база данных - это два места, где хранятся данные.Как только эти данные загружаются в память искрой.spark использует структуру данных с именем RDD для хранения и обработки.

...