Hadoop / Spark: как связаны коэффициент репликации и производительность? - PullRequest
0 голосов
/ 03 июля 2018

Без обсуждения всех других факторов производительности, дискового пространства и объектов узла Name, как фактор репликации может повысить производительность MR, Tez и Spark.

Если у нас есть, например, 5 наборов данных, лучше ли для механизма выполнения установить для репликации значение 5? Что является лучшим и худшим значением?

Как это может быть полезно для агрегатов, объединений и заданий только для карт?

1 Ответ

0 голосов
/ 03 июля 2018

Один из главных арендаторов Hadoop переносит вычисления на данные.

Если вы установите коэффициент репликации, приблизительно равный количеству узлов данных, вы гарантируете, что каждая машина сможет обрабатывать эти данные.

Однако, как вы упоминаете, издержки namenode очень важны, и большее количество файлов или реплик вызывает медленные запросы. Больше реплик также может насытить вашу сеть в нездоровом кластере. Я никогда не видел ничего выше 5, и это только для самых важных данных компании. Что-нибудь еще, они оставили в 2 репликах

Механизм выполнения не имеет большого значения, кроме того, что Tez / Spark превосходит MR в большинстве случаев, но важнее размер ваших файлов и формат, в котором они хранятся, - это будет основным фактором производительности выполнения.

...