Question

У меня проблемы с попыткой обработки огромного количества данных в кластере.

код:

val (sumZ, batchSize) = data.rdd.repartition(4)
  .treeAggregate(0L, 0L))(
    seqOp = (c, v) => {
      // c: (z, count), v
      val step = this.update(c, v)
      (step._1, c._2 + 1)
    },
    combOp = (c1, c2) => {
      // c: (z, count)
      (c1._1 + c2._1, c1._2 + c2._2)
    })

val finalZ = sumZ / 4

Как вы можете видеть из кода, мой текущий подход заключается в обработке этих данных, разделенных на 4 блока (x ₀, x ₁, x ₂, х ₃) делает весь процесс независимым. Каждый процесс генерирует вывод (z ₀, z ₁, z ₂, z ₃), и окончательное значение z равно среднее из этих 4 результатов.

Этот подход работает, но на точность (и время вычислений) влияет количество разделов.

Мой вопрос заключается в том, существует ли способ генерирования «глобального» z, который будет обновляться из каждого процесса (раздела).

hi-zir · Answer 1 · 04 мая 2018

TL; DR Нет. У Spark нет общей памяти с синхронизированным доступом, поэтому истинного глобального доступа не может быть.

Единственная форма «разделяемой» записываемой переменной в Spark - Accumulator. Он разрешает доступ только для записи с коммутативной и ассоциативной функцией.

Поскольку его реализация эквивалентна reduce / aggregate:

Каждый раздел имеет свою собственную копию, которая обновляется локально.
После выполнения задачи частичные результаты отправляются драйверу и объединяются с «глобальным» экземпляром.

это не решит вашу проблему.

Распределенный процесс обновления глобальной / единственной переменной в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распределенный процесс обновления глобальной / единственной переменной в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы