Для заданий MapReduce я бы рекомендовал использовать LOCAL_ONE
как самый быстрый. Это, конечно, зависит от вашего приложения, но обычно для заданий Spark этот уровень согласованности используется чаще всего.
Но мне очень интересно об этой настройке - в вашем случае у вас есть копия ваших данных на каждой машине. В типичных настройках аналитическая рабочая нагрузка (MapReduce или Spark) обычно помещается в отдельный центр обработки данных, где RF отличается от транзакционного - это дает вам лучшее использование. Например, вы можете объединить 2 DC в один с 6 машинами и использовать RF = 2, чтобы вы могли поместить больше данных в этот DC. Но, конечно, это зависит от требований доступности для ваших заданий MapReduce - вы согласны с некоторым временем простоя, если DC недоступен, или нет.