Question

Без обсуждения всех других факторов производительности, дискового пространства и объектов узла Name, как фактор репликации может повысить производительность MR, Tez и Spark.

Если у нас есть, например, 5 наборов данных, лучше ли для механизма выполнения установить для репликации значение 5? Что является лучшим и худшим значением?

Как это может быть полезно для агрегатов, объединений и заданий только для карт?

cricket_007 · Answer 1 · 03 июля 2018

Один из главных арендаторов Hadoop переносит вычисления на данные.

Если вы установите коэффициент репликации, приблизительно равный количеству узлов данных, вы гарантируете, что каждая машина сможет обрабатывать эти данные.

Однако, как вы упоминаете, издержки namenode очень важны, и большее количество файлов или реплик вызывает медленные запросы. Больше реплик также может насытить вашу сеть в нездоровом кластере. Я никогда не видел ничего выше 5, и это только для самых важных данных компании. Что-нибудь еще, они оставили в 2 репликах

Механизм выполнения не имеет большого значения, кроме того, что Tez / Spark превосходит MR в большинстве случаев, но важнее размер ваших файлов и формат, в котором они хранятся, - это будет основным фактором производительности выполнения.

Hadoop / Spark: как связаны коэффициент репликации и производительность?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop / Spark: как связаны коэффициент репликации и производительность?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы