Влияние снижения коэффициента репликации HDFS до 2 (или только одного) на карте HBase / снижения производительности - PullRequest
0 голосов
/ 10 февраля 2019

Каково влияние уменьшения коэффициента репликации HDFS до 2 (или только одного) на карте HBase / снижения производительности?У меня кластер HBase, размещенный на виртуальных машинах Azure, с данными, хранящимися на управляемых дисках Azure.Сам управляемый диск Azure хранит 3 копии данных для обеспечения отказоустойчивости, поэтому стоит подумать о снижении коэффициента репликации HDFS для экономии накладных расходов на хранение.Учитывая, что задания по сокращению карт используют локальную доступность данных, чтобы избежать передачи данных по сети, интересно, есть ли у кого-нибудь какая-либо информация о влиянии на производительность карты, если имеется только одна реплика доступных данных?

1 Ответ

0 голосов
/ 15 февраля 2019

На этот вопрос сложно ответить, так как он сильно зависит от того, какие рабочие нагрузки вы выполняете.

Уменьшая коэффициент репликации, вы можете ускорить выполнение операций записи, поскольку данные записываются в меньшее количество узлов данных.,Однако, как вы заметили, у вас может быть уменьшен локальный доступ, поскольку может быть сложнее найти узел, имеющий реплику и свободное пространство для выполнения задачи.

Сохранение только одной реплики может иметь серьезные последствия длявлияние отказа одного узла.Если один узел умирает, все его данные будут недоступны до тех пор, пока вы не перезапустите новый узел с теми же управляемыми дисками Azure.Если имеется несколько реплик HDFS, доступность данных сохраняется повсюду.

Запуск узлов данных HDFS поверх управляемых дисков Azure звучит как плохая идея.В дополнение к нарушению некоторых основных предположений HDFS («мой диск может выйти из строя в любое время»), маловероятно, что у вас будет истинная локальность данных, если ваши данные хранятся в трех репликах.Интересно, вы подумали:

  • Использование службы неуправляемых дисков.Предоставляет ли Azure способ использования диска, который не реплицируется?Это намного ближе к тому, как HDFS предназначена для использования.
    • Хранение данных в хранилище Azure (WASB или ADLS) вместо HDFS.Это более «облачный» способ запуска вещей.Если вы обнаружите, что производительности недостаточно, вы можете использовать HDFS для промежуточных данных и хранить только окончательные данные в Azure.HDFS также позволяет кэшировать данные из внешних систем хранения с помощью Предоставленное хранилище .
...