На этот вопрос сложно ответить, так как он сильно зависит от того, какие рабочие нагрузки вы выполняете.
Уменьшая коэффициент репликации, вы можете ускорить выполнение операций записи, поскольку данные записываются в меньшее количество узлов данных.,Однако, как вы заметили, у вас может быть уменьшен локальный доступ, поскольку может быть сложнее найти узел, имеющий реплику и свободное пространство для выполнения задачи.
Сохранение только одной реплики может иметь серьезные последствия длявлияние отказа одного узла.Если один узел умирает, все его данные будут недоступны до тех пор, пока вы не перезапустите новый узел с теми же управляемыми дисками Azure.Если имеется несколько реплик HDFS, доступность данных сохраняется повсюду.
Запуск узлов данных HDFS поверх управляемых дисков Azure звучит как плохая идея.В дополнение к нарушению некоторых основных предположений HDFS («мой диск может выйти из строя в любое время»), маловероятно, что у вас будет истинная локальность данных, если ваши данные хранятся в трех репликах.Интересно, вы подумали:
- Использование службы неуправляемых дисков.Предоставляет ли Azure способ использования диска, который не реплицируется?Это намного ближе к тому, как HDFS предназначена для использования.
- Хранение данных в хранилище Azure (WASB или ADLS) вместо HDFS.Это более «облачный» способ запуска вещей.Если вы обнаружите, что производительности недостаточно, вы можете использовать HDFS для промежуточных данных и хранить только окончательные данные в Azure.HDFS также позволяет кэшировать данные из внешних систем хранения с помощью Предоставленное хранилище .