Question

Я новичок в Spark. Из входного потока я получил фрейм данных, но я не понимаю, похож ли фрейм данных на реляционную таблицу. Как я могу сохранить поток ввода в моей распределенной файловой системе? Достаточно ли данных для этого? Спасибо

QuickSilver · Answer 1 · 25 апреля 2020

Spark является энергозависимым хранилищем, т.е. хранит всю оперативную память. Пока данные не находятся в памяти, вы можете запрашивать данные, используя API Spark или SQL. Все данные необходимо перезагрузить обратно с заданием Spark.

Для сохранения сохранности вы также можете сохранить свои Spark Dataframes в виде файлов паркета на постоянном диске и запросить их по Spark или кусту.

Arvinth · Answer 2 · 25 апреля 2020

Нет. Вы не можете использовать искру в качестве базы данных. Spark - это механизм обработки, которому не доверяют. Вы можете использовать HDFS для хранения данных. Вы также можете использовать Hive, Hbase, et c для хранения данных.

Можно ли использовать Spark как базу данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли использовать Spark как базу данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов