Question

In had oop мы можем контролировать replication фактор данных в cluster of nodes, используя файлы конфигурации.

Но как это можно сделать в Spark, если источником не является HDFS ...?

Спасибо

Chandan Ray · Answer 1 · 08 февраля 2020

Spark - это механизм вычисления кластера, он не реплицирует данные или хранимые данные неявно. Обработка искры основана на rdd, если из-за сбоя узла какой-либо раздел данных потерян, его можно пересчитать с помощью DAG.

Хотя при сохранении данных вы можете хранить данные в памяти или на диске. Например, StorageLevel.MEMORY_ONLY_2 означает, что разделы rdd будут реплицированы дважды при сохранении их в памяти.

Как работает репликация в Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работает репликация в Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов