Как работает репликация в Spark? - PullRequest
0 голосов
/ 08 февраля 2020

In had oop мы можем контролировать replication фактор данных в cluster of nodes, используя файлы конфигурации.

Но как это можно сделать в Spark, если источником не является HDFS ...?

Спасибо

1 Ответ

0 голосов
/ 08 февраля 2020

Spark - это механизм вычисления кластера, он не реплицирует данные или хранимые данные неявно. Обработка искры основана на rdd, если из-за сбоя узла какой-либо раздел данных потерян, его можно пересчитать с помощью DAG.

Хотя при сохранении данных вы можете хранить данные в памяти или на диске. Например, StorageLevel.MEMORY_ONLY_2 означает, что разделы rdd будут реплицированы дважды при сохранении их в памяти.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...