Режим перезаписи Spark и одновременное выполнение - PullRequest
0 голосов
/ 04 декабря 2018

У меня есть искра, когда я использую режим перезаписи, например:

  .repartition(10)
      .write
      .mode("overwrite")

Это работает нормально, но из-за некоторой ошибки кода мы в конечном итоге начинаем многократное одновременное выполнение одной и той же работы и в результате дублируем данные впапка s3.

  • Есть ли способ справиться с параллелизмом и режимом перезаписи?

Если нет,

  • Есть ли способ быстро потерпеть неудачу?

Ответы [ 2 ]

0 голосов
/ 04 декабря 2018

В Spark по умолчанию максимальное количество попыток будет равно двум.Установите значение 1 в команде Spark Submit --conf spark.yarn.maxAppAttempts = 1

0 голосов
/ 04 декабря 2018

Есть ли способ справиться с режимом параллелизма и перезаписи?

не без какой-либо координации более высокого уровня

Есть ли способ потерпеть неудачуfast?

не использовать перезапись

Общепринятым условием является «напиши где-нибудь, затем переименуй на место», полагаясь на переименование, являющееся быстрым атомарным средством исключительно совершения работы.Но поскольку S3 не работает таким образом, вы также не можете на это полагаться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...