Можно ли использовать Spark как базу данных? - PullRequest
0 голосов
/ 25 апреля 2020

Я новичок в Spark. Из входного потока я получил фрейм данных, но я не понимаю, похож ли фрейм данных на реляционную таблицу. Как я могу сохранить поток ввода в моей распределенной файловой системе? Достаточно ли данных для этого? Спасибо

Ответы [ 2 ]

1 голос
/ 25 апреля 2020

Spark является энергозависимым хранилищем, т.е. хранит всю оперативную память. Пока данные не находятся в памяти, вы можете запрашивать данные, используя API Spark или SQL. Все данные необходимо перезагрузить обратно с заданием Spark.

Для сохранения сохранности вы также можете сохранить свои Spark Dataframes в виде файлов паркета на постоянном диске и запросить их по Spark или кусту.

0 голосов
/ 25 апреля 2020

Нет. Вы не можете использовать искру в качестве базы данных. Spark - это механизм обработки, которому не доверяют. Вы можете использовать HDFS для хранения данных. Вы также можете использовать Hive, Hbase, et c для хранения данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...